MBZUAI与G42近日开源了号称「全球最快开源AI推理模型」K2-Think。这款仅32B参数的模型在数学能力上表现突出,在AIME 2024测试中得分率达90.83%,甚至击败了参数量超1000亿的模型。其创新架构将token消耗降低12%,引发广泛关注,连Yann LeCun都转发了相关论文。
然而ETH苏黎世的研究人员指出K2-Think存在多项问题:模型在训练数据中已见过87个评估题目;使用了未指明的外部模型辅助;评估方法对其他模型不公平;采用特殊加权方式凸显自身分数。在公平测试中,K2-Think表现甚至不及规模更小的GPT-OSS 20B模型。
研究人员认为K2-Think存在夸大宣传的问题,其评估方式存在缺陷。这反映出AI领域过度追求基准测试分数的现象,可能对行业发展产生负面影响。