新闻资讯

请登录登录

全球最快开源AI推理模型K2-Think遭质疑 ETH苏黎世指出多项评估问题

科仔播报 2025-09-15 17:47:40

热点播报

MBZUAI与G42近日开源了号称「全球最快开源AI推理模型」K2-Think。这款仅32B参数的模型在数学能力上表现突出，在AIME 2024测试中得分率达90.83%，甚至击败了参数量超1000亿的模型。其创新架构将token消耗降低12%，引发广泛关注，连Yann LeCun都转发了相关论文。

然而ETH苏黎世的研究人员指出K2-Think存在多项问题：模型在训练数据中已见过87个评估题目；使用了未指明的外部模型辅助；评估方法对其他模型不公平；采用特殊加权方式凸显自身分数。在公平测试中，K2-Think表现甚至不及规模更小的GPT-OSS 20B模型。

研究人员认为K2-Think存在夸大宣传的问题，其评估方式存在缺陷。这反映出AI领域过度追求基准测试分数的现象，可能对行业发展产生负面影响。

聚超值推荐

大容量：容声方糖505机皇

轻奢与潮流：魔鬼猫休闲包

不躺平的NAS威联通Qu805

不躺平的NAS威联通Qu805

保友金豪E2Pro 人体工学椅

保友金豪E2Pro 人体工学椅

夏季好物添眠水气浮力枕

晒伤难恢复，单导多光谱遮热服

制作海报

网友评论

APP内评论，得金币，兑好礼

相关推荐

AirPods Pro 3正式发布：新增AI实时语音翻译，售价不变

热点播报 2025-09-10 01:30

韵达快递多地网点陷入瘫痪危机欠薪风波引发快件积压潮

热点播报 2025-09-12 08:17

预制菜之王萨莉亚为啥没人骂网友：因为便宜

热点播报 2025-09-13 23:03

方太洗碗机拓展美国市场面临三大挑战本地化改造与标准制定成关键

热点播报 2025-09-12 20:16

网友发现微信又有新功能：再也不怕发错群了

热点播报 2025-09-10 21:24

iPhone 17/16全系价格对比：标准版降价支持国补 Pro Max顶配17999元史上最贵

热点播报 2025-09-10 04:16

苹果iPhone 17系列国行价格公布标准版支持国补最低5999元起

热点播报 2025-09-10 04:06

《人民日报》谈“禁带电话手表到学校”：分类管理疏堵结合

热点播报 2025-09-08 22:16

港版iPhone17标准版和Pro系列同时支持eSIM和双SIM卡

热点播报 2025-09-10 15:53

用橡胶指纹帮同事打卡两人被辞退后起诉公司索赔遭驳回

热点播报 2025-09-08 11:02