要闻

请登录登录

人大附高中生中NeurIPS，入选高中赛道Spotlight，顶会真卷到中学了

量子位 2024-10-07 21:39:25

科技

NeurIPS 2024放榜，人大附中有高中生一作入选。

今年，NeurIPS率先把AI顶会卷到了高中里，正式面向高中生征集论文，还为此专门设置了高中生赛道（High School Projects Track）。

现在结果终于出炉，北京大学计算机学院的张铭教授分享了一则入围消息：

人大附中吴悠，有一篇一作论文入选该赛道，还被选为了Spotlight Project。

论文题为《Vision-Braille：An End-to-End Tool for Chinese Braille Image-to-Text Translation》，提出了一种中文盲文图像到文本的端到端翻译工具。

据张铭教授介绍，吴悠在2022年高一加入她的课题组时，就提出了这个项目的想法。

端到端中文盲文图像到文本翻译工具

具体来说，该项目基于谷歌的mT5模型，采用Curriculum Learning（课程学习）方法微调出了一个盲文翻译模型。

其中的难点主要包括几个方面：

缺少数据集：中文盲文翻译数据集非常稀缺，数据的采集也比较困难，需要耗费大量人力。

盲文数据的特殊性：盲文通过最多三个单元格来表示每个汉字的发音，即声母、韵母和音调。但在实际使用中，盲文使用者通常会省略大部分声调符号，这给盲文翻译带来了挑战。

同音字混淆：中文中存在大量同音字，并且由于声调符号经常被省略，同音字的区分变得更加困难。

为此，论文作者们首先构建了一组中文-盲文数据集，包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。

作者从莱比锡数据集中收集了100万个不同的中文句子，使用中文盲文在线平台提供的工具，将收集到的中文句子转换为“全音”盲文。

而后，为了模拟真实世界中盲文使用者省略声调的情况，作者识别出这些盲文中代表声调的部分，并随机去除了其中90%的声调，创建Chinese-Braille-10per-Tone以反映现实世界中中文盲文的使用情况。

数据按照8:1:1的比例被划分为训练集、验证集和测试集。

训练方法方面，作者使用RetinaNet来执行盲文OCR任务，将盲文图像转换为数字盲文字符。

接着，采用课程学习策略——即从简单到复杂地安排训练任务，分三个阶段微调了多语言Transformer模型mT5：

第一阶段：使用Chinese-Braille-Full-Tone数据集作为训练的简单部分，让模型学习基本的翻译规则。这个数据集中的盲文包含完整的声调信息。

第二阶段：使用Chinese-Braille-No-Tone数据集，让模型在没有声调信息的情况下，学会根据上下文猜测正确的中文字符。

第三阶段：使用Chinese-Braille-10per-Tone数据集，让模型更好地适应实际应用场景。

实验结果显示，在验证集和测试集上，该模型的BLEU得分分别达到了62.4和62.3，显著提高了盲文翻译的准确度。

论文作者已经放出了项目Demo，效果是酱婶的，感兴趣的小伙伴们可以戳文末链接自行测试：

（正确答案：不过，对于自己外向的性格，埃托奥说，“这就是真实的我，我不会为此改变。）

该项目是在吴悠高三时完成。张铭教授透露，他目前已进入康奈尔大学就读计算机和生物医药工程专业。

论文致谢中提到，吴悠主要是在张铭教授博士生、论文第二作者袁野的指导下完成了这项研究。

张铭，北京大学计算机学院教授，博士生导师，研究领域包括文本挖掘、知识图谱、图神经网络和计算机教育研究等。她合作发表的科研学术论文曾获ICML 2014最佳论文、ICDM 2022最佳论文提名等荣誉。Google Scholar显示，她的论文引用量接近2万，h指数为48。

NeurIPS高中生赛道

NeurIPS是今年刚设的“高中生赛道”，主要征集“机器学习的社会影响”方向的论文。

公告是这样写的：

提交项目必须说明完全由高中生作者独立完成的工作。希望每个提交的项目都能突出显示积极的社会影响，或者使用机器学习产生积极社会影响的潜力。

详细来说，就是允许高中生们找外部导师来合作完成项目，但必须把导师以及合作者的贡献，和高中生作者的贡献区分开来。

公告中还规定了，作者需要提交高中在读证明，所有补充材料均应完全由作者完成，包括视频、Demo、海报、网站或源代码。

值得一提的是，其他顶会也有积极接触和影响高中生的趋势。

比如，CVPR的做法是和高中合作，开展CV领域的专业讲座等课外活动。

本文来源：量子位

点击展开全文

网友评论

聚超值推荐

PLUS会员：Beelink 零刻 SER7 迷你电脑主机（R7-7840HS、16GB、1TB） 券后省300 ￥2999 ￥3299

索尼FE16-35mmF2.8GMII镜头 ￥15599 ￥16999

堡垒岛 iPhone12-14系列 Magsafe磨砂渐变保护壳 券后省14 ￥35 ￥49

AOC 冠捷 27英寸 4K高清 IPS广视角 99%sRGB 商用办公节能低蓝光不闪旋转升降三边微边液晶电脑显示器 U2790PQU 券后省50 ￥1449 ￥1499

HUAWEI 华为 Pura 70 Pro+ 5G手机 16GB+512GB 光织银 送赠品 ￥6899 ￥7299

logitech 罗技 G PRO X SUPERLIGHT 2.4G Lightspeed 无线鼠标 25600DPI 券后省70 ￥629 ￥699

MI 小米米兔儿童手表6C 券后省45 ￥394 ￥444

SONY 索尼 SEL2070G 20-70mm F4 全画幅超广角标准变焦G镜头索尼FE卡口 72mm 券后省20 ￥6968 ￥6988

Lenovo 联想 GP70N 刻录机黑色 券后省3 ￥196 ￥199

相关推荐

GPT-4o 打《黑神话·悟空》！AI「马喽」拿捏 Boss ，胜率超人类 科技要闻深度

GPT-4o 打《黑神话·悟空》！AI「马喽」拿捏 Boss ，胜率超人类

饭菜都凉了，电视广告居然还没结束？ 科技要闻深度

饭菜都凉了，电视广告居然还没结束？

最能卖的4足，最能打的2足，这家具身智能公司火了 科技要闻深度

最能卖的4足，最能打的2足，这家具身智能公司火了

打工暂停，AI导游真能包圆你的衣食住行？ 科技要闻深度

打工暂停，AI导游真能包圆你的衣食住行？

单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败 科技要闻深度

单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败

小扎又出了新眼镜，但好像还活在十年前谷歌的阴影里 科技要闻深度

小扎又出了新眼镜，但好像还活在十年前谷歌的阴影里

我用豆包，生成了AI版《红楼梦》MV 科技要闻深度

我用豆包，生成了AI版《红楼梦》MV

徕卡搞了个富士「平替」，只要五万！ 科技要闻深度

徕卡搞了个富士「平替」，只要五万！

扫描全能王母公司IPO：年入12亿创百亿市值，中科院自动化所再添亿万富豪校友 科技要闻深度

扫描全能王母公司IPO：年入12亿创百亿市值，中科院自动化所再添亿万富豪校友

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，首款非Attention模型更新 科技要闻深度

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，首款非Attention模型更新

相关产品