请登录登录

阿里发布新一代千问旗舰模型Qwen3.7-Max，登顶最佳国产模型

PConline 2026-05-20 13:02:46

产品动态

由华为云驱动

2026年5月20日，在阿里云峰会现场，阿里巴巴发布了全新一代千问旗舰模型Qwen3.7-Max。在三方机构Arena全球大模型盲测总榜中，Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini最强模型接近，位列国产模型第一。千问3.7面向智能体（Agent）设计，实现了编程、推理等核心能力的突破。Qwen3.7-Max可全自主完成35小时的超长程智能体复杂任务：在一个全新的芯片平台上，通过自主编程和超1000次工具调用，实现了一个关键内核的自我进化，推理速度较原版本提升10倍。近3个月内，千问旗舰大模型已稳定迭代了3.5、3.6、3.7三个版本。Qwen3.7-Max在多项权威评测中位居前列：在编程智能体方面，在SWE-Pro、SWE-Multilingual等测评中均取得领先表现，在Terminal Bench 2.0-Terminus得分69.7，超过了DeepSeek-v4-pro-Max、Claude-Opus4.6等模型；在通用智能体方面，在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试中表现优异，超越GLM5.1、Kimi-K2.6等，并在Kernel Bench L3上展示了GPU内核优化能力；推理能力上，在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心测评中均超越了Claude-Opus4.6及所有国产模型；在通用能力与多语言方面，在指令遵循IFBench评测中得分79.1分，在多语言理解和翻译的WMT24++、MAXIFE评测中领先。在评估AI解决真实世界实战编程任务的SWE-bench系列测评、面向真实科学问题的编程测评SciCode中，Qwen3.7-Max较Qwen3.6-Plus大幅提升。千问3.7具有极强的Agent能力，并涌现出跨多种智能体框架的泛化能力，在Claude Code、OpenClaw、Qwen Code等框架下都能稳定发挥。通过MCP集成和多智能体协作，Qwen3.7-Max在企业级办公场景实现工作流自动化，在办公自动化基准SpreadSheetBench-v1上斩获87分。以往需专业团队耗时一至两周的复杂项目，现由Qwen3.7-Max驱动的智能体可在数小时内完成端到端交付闭环。在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890芯片上，千问3.7自主完成了一个复杂的推理内核优化任务。在没有任何性能分析数据、硬件文档或新架构的示例内核情况下，千问3.7仅从一个包含任务描述、SGLang Triton参考实现和评测脚本的空白工作空间出发，从“零”开始持续编程35小时，独立进行了432次内核评估、1158次工具调用，完全自主地完成了编写、编译、性能分析与迭代改进的全流程。最终，在平头哥新AI芯片上，经千问优化后的推理内核比SGLang Triton官方参考实现取得了10倍的加速。测试轨迹显示，模型在独立运行超过30小时后仍发现了有效优化点，并主动发起了一次关键的架构重设计。

点击展开全文