新闻资讯

全球最快开源AI推理模型K2-Think遭质疑 ETH苏黎世指出多项评估问题

科仔播报 2025-09-15 17:47:40
热点播报

MBZUAI与G42近日开源了号称「全球最快开源AI推理模型」K2-Think。这款仅32B参数的模型在数学能力上表现突出,在AIME 2024测试中得分率达90.83%,甚至击败了参数量超1000亿的模型。其创新架构将token消耗降低12%,引发广泛关注,连Yann LeCun都转发了相关论文。

然而ETH苏黎世的研究人员指出K2-Think存在多项问题:模型在训练数据中已见过87个评估题目;使用了未指明的外部模型辅助;评估方法对其他模型不公平;采用特殊加权方式凸显自身分数。在公平测试中,K2-Think表现甚至不及规模更小的GPT-OSS 20B模型。

研究人员认为K2-Think存在夸大宣传的问题,其评估方式存在缺陷。这反映出AI领域过度追求基准测试分数的现象,可能对行业发展产生负面影响。

打开APP,阅读体验更佳
前往太平洋知科技APP查看原文,阅读体验更佳
继续评论
前往APP
制作海报

网友评论

写评论
APP内评论,得金币,兑好礼

相关推荐