智造

优必选Thinker多模态大模型登顶四大全球榜单,Walker S2规划精度提升超20%

小智 2025-09-09 11:18:27
智造行业快讯
由华为云驱动

近日,优必选自主研发的人形机器人Walker的多模态大模型Thinker,在机器人感知与规划领域三大国际权威测试中斩获四项全球第一。这得益于其自研视觉编码器等技术优势及创新微调策略。该成果推动Walker S2“最强大脑”再进化,规划精度提升超20%。优必选将开源数据,共创应用生态。

近日,优必选自主研发的人形机器人Walker的“最强大脑”——优必选Thinker,这一具有百亿参数基座的多模态大模型,在机器人感知与规划领域的三大国际权威基准测试中表现卓越。这三项测试分别是由微软、谷歌等发起与提出的MS COCO Detection Challenge、RoboVQA与Egoplan - bench2。针对二十一个场景、四大类型的任务规划等命题,优必选一举拿下四项全球榜单第一。该榜单吸引了英伟达、北京智源研究院、上海AI Lab等全球顶尖团队参与,竞争十分激烈。

优必选取得的这一成绩,体现了其机器人在复杂环境感知、语义理解与长程任务规划方面的全方位技术领先,也标志着人形机器人Walker S系列的“最强大脑”实现了关键进化。在智能化浪潮下,人形机器人的规划能力成为关键竞争点。传统机器人依靠预设指令执行任务,难以适应动态多变的现实场景。而这三大基准测试,正是对人形机器人在复杂环境中的多模态感知和推理规划能力进行系统验证。

MS COCO detection challenge由微软发起,是计算机视觉领域的权威评测基准,在全球学术界和工业界认可度极高,常被用作感知算法性能的衡量标准。RoboVQA和Egoplan - bench2分别由谷歌DeepMind和香港大学提出,致力于构建机器人第一视角推理与任务规划的公开标准基准测试,重点关注多模态、长周期任务规划能力。参与排名的模型有北京智源、英伟达ThinkAct、Cosmos - reason1、GPT - 4V、Qwen2.5 - vl等。

优必选Thinker在MS COCO detection challenge - Segmentation Mask中排名第一,在MS COCO detection challenge - Bounding Box排名中并列第一,在RoboVQA与Egoplan - bench2中也排名第一。优必选自主研发的Thinker架构与训练框架,为这一成绩提供了技术支撑。通过整合多项关键技术,提升了人形机器人的感知与推理规划能力,为工业场景的规模化应用奠定了基础。

优必选Thinker在技术上有以下优势:

  • 一是自研视觉编码器基座,构建精准环境感知。以ViT作为视觉编码器原型,结合Co - DETR检测头,依托Object 365等开源数据进行预训练,通过多阶段模态对齐机制实现视觉 - 语言模态的高效融合,最后在优必选机器人数据集上微调,提升了机器人在工业场景中对物体、障碍和操作上下文的识别能力。
  • 二是超大规模参数架构,提供强大语义理解基础。优必选的百亿参数多模态大模型Thinker基座,实现了视觉 - 语言 - 时间的跨域统一表征,让机器人能在多场景中捕捉环境细节、理解任务指令并推理。
  • 三是时序增强算法与强化学习方法,增强长程任务规划的连贯可靠性。通过大模型蒸馏技术,将百亿参数模型效果浓缩至7B参数模型中,在保持高性能的同时,增强了多步骤任务分解与连续决策能力。该优化使模型可在端侧部署,机器人能自主拆解复杂流程,避免规划中断或逻辑混乱,保障了生产连贯性和操作安全性。

优必选创新性地采用“通用基础能力打造 + 工业场景精调”的微调策略。基于超200万条视频数据的大规模训练集预训练,再引入亿级工业数据集微调,并清洗整合工业场景任务规划数据,构建高效多模态大模型学习闭环。这一流程让模型能快速学习工业场景特征,提升了人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性。

在Thinker大模型技术体系的赋能下,优必选新一代工业人形机器人Walker S2实现“最强大脑”再进化。它具备高精准环境感知能力,能在动态场景中高效完成任务分解、实时调整与稳定规划。借助Thinker,Walker S2可精准识别设备、物料与障碍物,理解场景语义及操作逻辑,提升长周期任务执行稳定性,在复杂流水线环境中减少对人工干预的依赖。

实际应用数据显示,采用工业数据集二次微调后,Walker S2在拆码垛规划等典型任务中的规划精度提升超过20%,验证了该技术方案的产业化价值,相关技术报告将在arxiv上发布。

当前,人形机器人进入大规模应用关键阶段,其发展需要与开发者构建开放、协同的应用生态。优必选将逐步开源一系列工业场景数据集与通用基础大模型,为行业提供高质量合规数据资源。开发者可基于优必选多模态大模型Thinker进行精调与二次开发,提升开发效率。期待与全球开发者携手,共创工业人形机器人的应用生态,推动具身智能行业加速发展。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消