2026年5月20日,在阿里云峰会现场,阿里巴巴发布了全新一代千问旗舰模型Qwen3.7-Max。在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini最强模型接近,位列国产模型第一。千问3.7面向智能体(Agent)设计,实现了编程、推理等核心能力的突破。Qwen3.7-Max可全自主完成35小时的超长程智能体复杂任务:在一个全新的芯片平台上,通过自主编程和超1000次工具调用,实现了一个关键内核的自我进化,推理速度较原版本提升10倍。近3个月内,千问旗舰大模型已稳定迭代了3.5、3.6、3.7三个版本。Qwen3.7-Max在多项权威评测中位居前列:在编程智能体方面,在SWE-Pro、SWE-Multilingual等测评中均取得领先表现,在Terminal Bench 2.0-Terminus得分69.7,超过了DeepSeek-v4-pro-Max、Claude-Opus4.6等模型;在通用智能体方面,在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试中表现优异,超越GLM5.1、Kimi-K2.6等,并在Kernel Bench L3上展示了GPU内核优化能力;推理能力上,在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心测评中均超越了Claude-Opus4.6及所有国产模型;在通用能力与多语言方面,在指令遵循IFBench评测中得分79.1分,在多语言理解和翻译的WMT24++、MAXIFE评测中领先。在评估AI解决真实世界实战编程任务的SWE-bench系列测评、面向真实科学问题的编程测评SciCode中,Qwen3.7-Max较Qwen3.6-Plus大幅提升。千问3.7具有极强的Agent能力,并涌现出跨多种智能体框架的泛化能力,在Claude Code、OpenClaw、Qwen Code等框架下都能稳定发挥。通过MCP集成和多智能体协作,Qwen3.7-Max在企业级办公场景实现工作流自动化,在办公自动化基准SpreadSheetBench-v1上斩获87分。以往需专业团队耗时一至两周的复杂项目,现由Qwen3.7-Max驱动的智能体可在数小时内完成端到端交付闭环。在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890芯片上,千问3.7自主完成了一个复杂的推理内核优化任务。在没有任何性能分析数据、硬件文档或新架构的示例内核情况下,千问3.7仅从一个包含任务描述、SGLang Triton参考实现和评测脚本的空白工作空间出发,从“零”开始持续编程35小时,独立进行了432次内核评估、1158次工具调用,完全自主地完成了编写、编译、性能分析与迭代改进的全流程。最终,在平头哥新AI芯片上,经千问优化后的推理内核比SGLang Triton官方参考实现取得了10倍的加速。测试轨迹显示,模型在独立运行超过30小时后仍发现了有效优化点,并主动发起了一次关键的架构重设计。
网友评论