要闻

国产大模型卷翻机器人!这些火遍全网的机器人,都装上了星火「大脑」

新智元 2024-04-25 20:59:29
科技

大模型,已然卷入机器人领域。

3月初,初创公司Figure发布了首个由OpenAI大模型加持的人形机器人Figure 01的演示。

凭借LLM「大脑」,Figure 01可以看到桌面上的苹果,动手收拾餐具,并与人类进行无缝交流。

在电动Atlas官宣当天,初创公司Mentee Robotics也展示了首个Menteebot人形机器人,通过自然语言即可交流。

同样,得到大模型加持的Menteebot,能解释命令,并思考、决策、完成任务。

在大模型浪潮下,类似的案例近一年来层出不穷。

反观国内,大模型助推下,机器人领域也是热度不减。

年初,具有「人形机器人第一股」之称的优必选股价创下2天3倍的暴涨走势,与之呼应的是大模型厂商近期与机器人行业的合作也是动作不断。

有行业专家表示,具备多模态LLM大脑的机器人时代终于来临了。这些机器人将能够理解指令并执行任务:可以使用笔记本、刷碗、冲泡咖啡,妥妥的AGI!

显然,大模型赋能机器人蕴藏着巨大的潜力,成为科技大厂为数不多的一个共识。

「具身智能」大爆发,元年已来

人们都说,2024年是机器人的元年。

大模型的横空出世,无疑让机器人行业再次成为研究界和产业界的一大亮点。

先来看一张图,直观地感受下,当前全世界取得进展的机器人公司。

正如许多人期待的那样,AGI真正到来的那天,「具身智能」正是不可或缺的重要硬件载体。

从过去一年至今,机器人领域的投资市场不断持续升温,迎来了高光时刻。

研究公司Robot Report数据显示,今年前3个月,机器人初创公司筹集了32亿美元资金,去年同期为17亿美元。

在国外,OpenAI押注的两家人形机器人初创公司1X、Figure纷纷得到新一轮的融资。

还有硅谷服务机器人Bear Robotics、专为机器人开发大脑Physical Intelligence、还未创收的Skild等机器人初创公司,同样受到资本的追捧。

国内以优必选为代表,2023年12月底上市即成为人形机器人第一股;如前所述,股票一路攀升。

不久前,工业版人形机器人Walker S都已经进入车间开始打工了。

此外,宇树人形机器人在今年2月完成了近10亿元的B2轮融资,其产品宇树H1更是火到了国外。

根据网友的统计,仅在今年第一季度,国内机器人市场就有20多起融资案例。

来源:网络

可见,大量资本的注入,将机器人行业的热潮推向了最高点。

实际上,对于每个人来说,机器人早已不是什么新鲜事物。

为什么大模型的加入,让其迎来了ChatGPT时刻?

为什么需要多模态LLM

众所周知,传统机器人有着一个明显的局限性——需要明确的指令。

掌握单个技能,诸如开门、拉抽屉、拾取和操纵某物,对于它们来说,并不难。

然而,想要让机器人去完成多个技能结合的任务,是非常困难的。

这就是为什么大模型的出现,破解了传统机器人需要明确指令,才能执行任务的僵化问题。

简单来说,LLM可以将松散定义的指令,映射到机器人技能范围内的特定任务序列。

比如,当你对机器人点头时,如何让它也能友好地向你点头?

来自多伦多大学、谷歌DeepMind等机构开发的GenEM,利用GPT-4丰富的知识储备,将「点头」这一抽象行为,转化为机器人可输出的特定动作。

然而,通往具身智能AGI的路上,仅依靠大语言模型是不够的。

这是因为,图像、文字、语音、视频等各种多模态信息,构成了我们的现实世界。而人类的感受、沟通,都是在以多模态形式进行。

对于智能机器人来说,也是必须具备的能力。

比如,当机器人想要正确执行「有点累,帮我去拿一杯提神的饮品」这条指令时,最关键是完成「多模理解」。

看到桌面上的一堆食物,哪个才是咖啡呢?

在理解语音指令、拆解任务步骤之后,机器人需要识别「视线」里的物体,判断推理出哪瓶饮料是符合指令意思需要拿取的。

不仅如此,嗅觉、味觉之类的智能,也将是机器人未来逐渐扩展的领域。

总而言之,多模态能力对于真正要进入家庭的机器人来说必不可少,尤其是多模理解尤为重要。

国产顶流:讯飞星火大模型

看得出,市场对机器人的热情,已完全被AI大模型点燃。

国内一家成立25年的公司,曾在2022年就启动了「超脑2030计划」,畅想着能够让机器人走进每个家庭。

这一计划共分为三个阶段,通过逐步推进,让AI可以懂知识、善学习、能进化。

一直以来,基于对前沿技术的不断探索,背后这家公司——科大讯飞正朝着目标前进。

先是在2022年科大讯飞全球1024开发者大会上,首次发布了「讯飞机器人超脑平台」。

这一平台面向开发者,提供了全栈的工具链,包括模型训练、资产生成和软硬件接入等等。

ChatGPT引爆大模型热潮之后,科大讯飞在23年5月首次发布「讯飞星火大模型」,并在一年多的时间完成了5次迭代。

而初代讯飞星火大模型就具备了体现通用人工智能的七大维度,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。

在接下来的6月、8月、和10月以及今年1月,讯飞星火大模型完成了从V1.5、V2.0,到V3.0、V3.5的迭代升级。

大模型打破传统认知智能的天花板,为机器人更加深入地理解世界奠定了坚实的基础。

然而,要充分整合这些先进技术,以促进机器人在人机互动、任务规划和环境适应等方面的显著进步,还需要依赖专门的系统。

为「机器人超脑平台」注入灵魂

为此,科大讯飞在2023年7月正式将讯飞星火大模型与「机器人超脑平台」进行了深度的融合。

具体来说,科大讯飞机器人超脑平台,是以讯飞超脑2030技术为底座打造的,一个面向物理世界、虚拟世界和元宇宙的机器人开发平台。

它以多模态感知表达、开放式语义理解、大小脑协同运动控制和软硬件接入为核心,可以帮开发者快速搭建实体机器人和虚拟数字人产品。

如今,人形机器人在实际应用时,面临的挑战更多了。

你是不是经常在商场遇到机器人,鸡同鸭讲,根本讲不了两句话,就被逼疯了?

在这样的嘈杂环境中,人与机器人的交互,简直难上加难。

又或是,当你让机器人讲一个笑话时,那一本正经的播音腔,简直就是尴尬氛围组上线。

而破解这些问题的关键是,让机器人更好地「拾音」,且说话不再有那么重的「机器味儿」。

讯飞机器人超脑平台从「视听融合的多模态感知交互」和「大模型理解决策」两个方面,解决了这一难题。

首先,就是打造机器人交互的新范式。

为此,讯飞机器人超脑平台融合了语音、视觉、语义等多个维度的信息。

通过升级麦克风阵列算法,融合声音、人脸、和唇形信息,即使在嘈杂、高噪的场景下,机器人都能精准拾音,实现复杂场景「听得清」。

同时,通过语音大模型和超拟人合成技术,机器人「听得准」,「答得自然」,让机器人聊起天来更有生命力和感染力了!

其次,就是机器人的交互大脑。

这个大脑,毫无疑问就是基于讯飞星火大模型,实现了控制级指令、官方技能、核心业务功能、快速知识问答、闲聊陪伴等多交互场景的统一。

对于每个孩子来说,如果机器人能以妈妈的声音、口吻讲睡前故事,才堪称真正的「陪伴」机器人。

但若要实现这一点,还需要机器人具备情感化和高表现力的合成能力。

对此,讯飞机器人超脑平台还设计了多风格、多情感的AI人设,能够让每个机器人都与众不同。

顺便提一句,讯飞机器人超脑平台的虚拟人驱动协议已全面开放。

三方数字人产品通过接入该驱动协议,可以实现与讯飞数字人同等的交互效果。

讯飞机器人超脑平台已赋能四大领域398家机器人客户,深度链接1.3万名机器人开发者。

官网地址:https://aibot.xfyun.cn

星火加持,机器人飞升

为了进一步扩大合作生态,2024年4月15日,科大讯飞正式启动「星河行动」计划,招募生态合作伙伴共同推进机器人产业的繁荣。

而在此之前,有很多来自不同细分领域的国内头部机器人厂商,就已经用上了科大讯飞星火大模型的强大能力。

当前,在许多人看来,人形机器人是最好的通用具身形态。

当机器人走向落地,人形并不一定是完成任务最好的形态。它可以是一个机械臂,也可以是轮式......

科大讯飞与穿山甲机器人公司合作已久,一直共同探索AI技术与机器人的融合,不断拓宽服务机器人应用新的边界。

这家公司旗下新款小鱼、艾米、小雪等AI服务机器人,全都搭载了讯飞机器人超脑平台,以及讯飞星火大模型技术。

基于讯飞先进的语音识别、AI技术,机器人可以流畅地进行自然语言对话,迅速理解并给出准确回答。

同时,凭借着丰富的技术储备,它们还能提供各类信息和建议。

穿山甲机器人已广泛应用到餐饮、政务、教育、医疗等领域

当然还有家庭服务机器人,乐天派便是其中的代表之一。

通过接入讯飞星火大模型和多模态交互,这款桌面黑科技机器人成为孩子们的贴心「小管家」。

只需要一声呼唤,不论是娱乐、还是遇到学习生活难题,它都能以前所未有交互能力陪伴孩子。

而在头部人形机器人中,也少不了科大讯飞核心技术的身影。

我们熟知的,智元机器人、优必选、宇树科技等公司,都得到了讯飞全链路语音,以及讯飞星火大模型的加持。

还有近日官宣合作的EX机器人,更是将双方各自优势完美结合。

基于讯飞机器人超脑平台,将讯飞星火大模型和多模态交互技术应用到EX仿生机器人中,实现了与人一样的思考、对话和动作。

除以上的案例之外,科大讯飞生态「朋友圈」还在不断扩大。

机器人开发,最好的时代

我们还应该看到,机器人的发展不仅依靠AI大脑的技术迭代,还需要「身体」并行。

随着机器人行业的逐步发展,机器人行业内的组件供应也开始向专业化、成熟化方向发展。

4月2日,在上海召开的中国人形机器人生态大会上,可以看到机器人部件厂商也获得了长足的发展——

人形机器人通用底座、机器狗通用底座、机器人超脑板、多模态语音交互、3D视觉芯片、灵活机械手、机器人伺服电机、3D打印框架等厂商均参加展出。

会场进行了多项专题报告,比如「多模态+大模型,构建人形机器人新交互」、「人形机器人感知技术与发展」等细分领域的成果展示。

对于机器人行业的创业者和开发者来说,这将是最好的时代!

大量模块化、可快速整合的行业平台及部件,让机器人的开发不再需要像过去一样,从0开始做算法。

尤其是,像讯飞机器人超脑平台已经引入大模型的通用开放平台,进一步将机器人的常规算法和人机交互开发难度降低到了「拿来即用」的地步。

再加上,讯飞机器人超脑平台已经打通了对接链路公司(宇树、智元、EX机器人等)的成熟机器人硬件体系。

这意味着,二次应用开发将会成为入行最快、产品最快满足客户需求的方式之一。

显然,机器人底层硬件配套已初步具备,LLM技术更是赋予了机器人交互的核心。

接下来,针对客户需求的挖掘、痛点解决方案和用户贴身服务的内容,尚需进一步打磨。

这,将是机器人行业万众创业的开端。

大模型+机器人,前景一片大好

下一步,就是在LLM和机器人加速融合后,如何推动商业化落地?

从认知能力上来看,AI机器人的发展愈加接近人类。甚至,在外表方面,也变得更像人类了。

波士顿咨询公司(BCG)估计,到2030年,全球机器人市场规模将达到1600亿美元-2600亿美元。

也就说,LLM+机器人未来的市场前景非常广阔,可以深入应用于各种工业领域和人类生活场景。

在制造业领域,装配线上的机器人能够生产出,人类工人无法比拟的高质量和一致性的商品。

在仓库和物流公司中,AI机器人能够完成重型搬运工作,诸如运送产品、放置在货架等任务,大大减轻了人类劳动力的负担。

就比如,亚马逊物流仓库中的75万机器人大军,已全面投入了使用。

除了工业领域的机器人,AI医疗机器人还可以帮助医生做手术,做出更准确的诊断,也能引导患者完成物理治疗和康复。

展望未来,在餐馆、太空探索、教育、养老院等诸多场景中,都将得到AI机器人的全面覆盖。

不难料到,机器人的曙光已经到来,它正在以我们几十年前只能想象的方式重塑整个世界。

科大讯飞所做的,就是用技术革新,让机器人走进每个家庭。

参考资料:

https://aibot.xfyun.cn

https://news.zol.com.cn/867/8673954.html

https://venturebeat.com/ai/how-llms-are-ushering-in-a-new-era-of-robotics/

文章来源:新智元

 

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

华为Pura70突袭开售!能从苹果手中抢回第一吗? 科技要闻 新技术
华为Pura70突袭开售!能从苹果手中抢回第一吗?
字节又和微信杠上了 科技要闻 新技术
字节又和微信杠上了
上线即售罄,“低调”的华为Pura70来了 科技要闻 新技术
上线即售罄,“低调”的华为Pura70来了
曾经的手机巨头,索尼手机为什么不好用了 科技要闻 新技术
曾经的手机巨头,索尼手机为什么不好用了
回县城老家开一家零食很忙,能赚钱吗? 科技要闻 新技术
回县城老家开一家零食很忙,能赚钱吗?
抢到华为Pura 70 Ultra之后,我把你想知道的全测了。 科技要闻 新技术
抢到华为Pura 70 Ultra之后,我把你想知道的全测了。
你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 科技要闻 新技术
你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克
直播售假成灾,新电商时代下的打假难题 科技要闻 新技术
直播售假成灾,新电商时代下的打假难题
哄中东土豪刷火箭,中国互联网是最专业的。 科技要闻 新技术
哄中东土豪刷火箭,中国互联网是最专业的。
华为造爆款,耗时8分钟 科技要闻 新技术
华为造爆款,耗时8分钟
相关产品
取消