行业

请登录登录

国产AI大战高考物理，第1题全对，第2题开始放飞

量子位 2024-06-11 15:43:44

科技

由华为云驱动

通过单选题和多选题的测试，大模型们展现出不同的解题能力和准确率。其中海螺AI在多选题中表现最佳，而文心一言、豆包等也有不错的成绩。这次比拼显示了人工智能在科学领域应用潜力，并引发对于教育评估方式的思考。

高考结束。陆陆续续，文理综各个科目的考试题目开始在网上流出，那么语文数学之后，也是时候让大模型们继续来挑战一波了。

考题方面，先给大模型们来一份辽宁物理——

多解释一嘴，新高考改革下大部分省份已经取消了文理分科，采用3+1+2或3+3的新模式，也就是物理化学生物现在是拆开考的。

那么闲话少叙，我们有请参赛AI助手——

通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。

Round 1：单选题

这份物理卷共有10道选择题，其中1-7题为单选题，总计28分。

1、3两题不涉及图片解析，人类考官直接把题目扔给了大模型：

图片题给出的提示词统一为：查看图中题目，给出答案。

在看详细答案之前，心急的看官们可以先扫一眼“考试”结果（测试方法比较简单粗暴，不能完全反映各AI真实水平，仅图一乐）：

文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，豆包、天工、智谱清言正确率为1/2。

接下来，就来看看大模型们的具体表现。

单选题中，准确率最高的是第一题，一道有关标量矢量的概念题，参赛大模型百分百通过。

到了第二题，大模型们就开始各有各的想法了。题目是：

来看看成功得分的选手们的回答：

通义千问

文心一言

海螺AI

讯飞星火

4位选手中，文心一言和讯飞星火进行了逐个答案的分析，海螺AI则最言简意赅，只回答了答案没给过程。

另一道正确率比较高的题，是难度较大的第5题。

但答对这道题的选手名单有所不同，讯飞星火、海螺AI依然在列，另外两位换成了Kimi和腾讯元宝。

Kimi

腾讯元宝

和海螺AI一样，腾讯元宝也是惜字如金型（doge）。

另外一个有意思的现象是，有的大模型选手尽管答案不对，但还挺有考试技巧的。

比如ChatGLM，在面对双缝干涉实验中，“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时，它一通分析觉得答案全错，但还是退而求其次挑了一个看上去相对正确的答案。

Round 2：多选题

再来看看多选题（18分）的情况。

p.s. 在多选题作答过程中，人类考官在提示词中提醒了选手们这是“多选题”。

根据多选题判卷规则，全部选对得满分，部分选对得一半分，有选错不得分，表现最佳的是海螺AI（2道题全对，1道题部分对），其次是通义千问、文心一言和万知（1道题全对，2道题部分对）。

和单选题的情况类似，大模型们正确率最高的第8题是一道概念题：

X射线光电子能谱仪是利用X光照射材料表面激发出光电子，并对光电子进行分析的科研仪器，用某一频率的X光照射某金属表面，逸出了光电子，若增加此X光的强度，则
A. 该金属的逸出功增大
B. X光的光子能量不变
C. 逸出的光电子最大初动能增大
D. 单位时间逸出的光电子增多

第9题有两位选手选中了全部正确选项：海螺AI和万知。

来看看万知的具体回答：

今日份的测试，就先到这里，你觉得大模型们的表现如何？至少在这份物理卷子46分的选择题里，还是有不少选手能拿到及格分了。

本文来源：量子位

点击展开全文

网友评论

聚超值推荐

JPLAYERType-c数据线6A超级快充22.5W充电线车载适用华为Mate60Pro/Pura70/P50/40荣耀小米平板手机线1米 券后省0.9 ￥10.8 ￥12

韶音（SHOKZ）OpenRun Pro 2 S820开放式蓝牙耳机骨传导耳机运动跑步骑行无线耳机超长续航砂石黑 券后省0.9 ￥988.2 ￥1098

李森（LISEN）【3C认证可上飞机高铁】iPhone17超薄磁吸充电宝5000mah轻薄快充移动电源适用Magsafe苹果17/安卓 ￥167.4 ￥186

KTC 24.5英寸260Hz升降旋转FastIPS原生240Hz广色域HDR400亮度显示屏电脑显示器国家补贴H25T7-3代 券后省20 ￥549 ￥569

摩米士（MOMAX）磁吸数据线Type-C苹果17/16充电线双头PD60W快充车载1米适用iPhone15ProMax平板iPad华为钛金色 券后省0.9 ￥17.9 ￥19.9

HUAWEI Mate 70 Pro+ 16GB+512GB金丝银锦鸿蒙AI 高亮钛玄武架构红枫原色影像华为鸿蒙智能手机 券后省800 ￥6344 ￥7144

AMD 锐龙 7 9700X处理器(R7) 4nm 8核16线程加速频率至高5.5GHz盒装CPU 畅玩黑神话悟空/阿凡达/魔兽 送赠品 ￥1949 ￥1999

品胜HDMI线2.0版 4K数字高清线1米 3D视频线工程级投影仪笔记本电脑电视机机顶盒数据连接线 券后省0.9 ￥14.3 ￥15.9

西部数据（WD）移动固态硬盘（Nvme PSSD）My Passport随行SSD Type-C接口深空灰| 500G 高速加密官方标配 券后省10 ￥579 ￥589

相关推荐

承认吧：手机越来越无聊了，要允许好玩的怪东西存在 科技要闻深度

承认吧：手机越来越无聊了，要允许好玩的怪东西存在

1999 元的 moto Air 手机，为什么比 iPhone Air 更香？ 科技要闻深度

1999 元的 moto Air 手机，为什么比 iPhone Air 更香？

Z时代的豪华，奔驰交出了高分答卷 科技要闻深度

Z时代的豪华，奔驰交出了高分答卷

看完94万的宝马M3旅行版，我的眼泪从嘴角流了下来。 科技要闻深度

看完94万的宝马M3旅行版，我的眼泪从嘴角流了下来。

发动机热效率都快到50%了？别吹了，我看得头疼。 科技要闻深度

发动机热效率都快到50%了？别吹了，我看得头疼。

1899 块一只的 iPhone「袜子」，买的到底是什么？ 科技要闻深度

1899 块一只的 iPhone「袜子」，买的到底是什么？

小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」 科技要闻深度

小成本DeepSeek和Kimi，正攻破奥特曼的「算力护城河」

才买2年就被车企“抛弃”？这群车主开始破解车机了。 科技要闻深度

才买2年就被车企“抛弃”？这群车主开始破解车机了。

谷歌二代Nano Banana爆出！一键推演微积分，终结PS时代 科技要闻深度

谷歌二代Nano Banana爆出！一键推演微积分，终结PS时代

买得到芯片的美国科技巨头，买不到电了。 科技要闻深度

买得到芯片的美国科技巨头，买不到电了。

相关产品