智元发布Genie Envisioner 2.0，机器人的世界模型，来了

蒜鸟原创 2026-04-10 17:45:13

由华为云驱动

2026年4月10日，智元发布Genie Envisioner 2.0世界模型，革新机器人基础设施。该产品实现动作驱动的物理进化引擎和内置激励模型，实现虚拟环境中自主学习与决策，推动具身智能向AGI迈进。

来到发布周的第四天，智元把手伸向了最具科幻色彩、也最底层的基础设施：世界模型（World Model）。

2025 年，智元通过 Genie‑Envisioner 让机器人学会了读懂世界，今天智元将这一逻辑推向了极致：不再仅仅让机器人理解世界，而是要让它在模型构建的虚拟母体中，完成自主的呼吸、学习与进化。

从描述世界到成为世界

过去，行业对世界模型的讨论大多停留在表征层面，即如何更真实地生成一段视频或一张图片。但智元认为，一个合格的具身智能世界模型，必须沿着两条主线生长。

一条是世界动作模型（WAM），它专注的是动作如何改变环境；

另一条则是世界模拟器（World Simulator），它负责提供一个可交互、可推演的完整容器。

从 GE-Sim 1.0 到如今的 2.0，世界模型不再是一个冷冰冰的描述工具，而是一个真正能够实时响应机器人动作信号、遵循物理逻辑演化的可操作世界。

GE-Sim 2.0：一个由动作驱动的物理进化引擎

这次发布的 GE-Sim 2.0 彻底打破了传统模拟器的局限。它实现了真正的动作驱动，世界不再是无法干预的幻影，而是会根据机器人的每一个指令产生高保真的反馈。

当机器人在模型世界中推开一扇门，它看到的不再是预设的动画，而是一个严格遵循物理规律和语义逻辑的动态过程。更令人惊叹的是，模型支持分钟级的长时序稳定推演，将零散的动作片段串联成了连贯的任务流。配合多视角视觉与本体状态的统一建模，机器人面对的不再是平面画面，而是一个具备 3D 一致性的、完整的具身体验。

内置裁判员：开启模型世界里的强化学习

在 GE-Sim 2.0 的技术框架中，最具前瞻性的突破莫过于内置的激励模型（General Reward Model）。

模型不仅能生成场景，还具备了判断能力。它能基于文本指令对生成的状态进行自动评估与优化，彻底摆脱了对人工激励信号的依赖。这种“RL in World Model（模型世界里的强化学习）”的能力，让训练闭环第一次被完整地内嵌进虚拟世界本身。机器人可以在这个没有物理损耗的母体中，进行千万次的试错与策略优化。这种从离线预测走向实时交互的跨越，让世界模型真正成为了具身智能的基础设施。

从复现经验走向生成决策

当 GE-Sim 2.0 正式成为具身智能的物理进化引擎，整个行业的开发范式也将迎来重构。机器人不再是机械地复现人类采集到的有限经验，而是变成了能在模型世界中预判未来、规划全局的决策者。

它们从被动响应环境的反应式控制，进化为能够自主探索、修正、突破的学习者。当现实不再是机器人唯一的训练场，其能力的上限将不再受限于真机数据的稀缺，而是取决于模拟世界的真实度与进化效率。智元这一步，实际上是为具身智能铺就了一条通往 AGI 的高速公路。

点击展开全文