共计 1825 个字符,预计需要花费 5 分钟才能阅读完成。
国内版的人形机器人+大模型组队,首次完成叠衣服这类复杂柔性材料的操作任务。
, 国内同行的相关进展一直备受关注。
就在昨天,国内“人形机器人第一股”优必选发布了人形机器人 Walker S 深入融合百度文心大模型后的首个 Demo,展示了一些有趣的新功能。
视频链接:
现在,得到百度文心大模型能力加持的 Walker S 是这个样子的。
视频链接:
和 Figure 01 一样,Walker S 没有走动,而是站在桌子后面完成一系列任务。它可以听从人类的命令,折叠衣物。
视频链接:
完成任务后,你还可以和它聊天。比如问询这件黑色上衣搭配什么比较合适?机器人依然记得你要出差这件事,建议搭配深色裤子更适合正式场合。
视频链接:
它还会将桌子上的各种开关归置到盘子里。
视频链接:
即使被干扰,比如归置好的开关又被扔回桌子上,或者眼看就要拿到手的插座又被移开了,Walker S 都能实时调整工作状态,根据新情况完成归置任务。
视频链接:
2 月,在新能源车厂实训时, Walker S 就已展现出多模态感知与运动控制能力。
视频链接:
此次,通过与文心大模型的深度融合,Walker S 的认知和操控能力再上台阶,不仅获得了高级意图理解和细粒度任务规划能力,更首次完成了叠衣服这类复杂柔性材料操作任务。
文心大模型系文心产业级知识增强大模型,具备跨模态、跨语言的深度语义理解与生成能力,还有知识推理、任务规划等能力。通过将这些能力移植到人形机器人,可以让机器人像人一样对衣物的材质、形状、褶皱等属性进行分析和理解,并根据过往经验推理出最佳的叠衣方式和顺序。在实际叠衣过程中,机器人会实时分析衣物的状态变化,并相应地调整自己的动作策略。
在物体干扰分拣任务中, Walker S 也充分发挥了”AI 大模型+机器人”的协同优势。首先,通过端侧的多模态感知模型获取物体的空间定位和语义信息,再将这些信息交由大模型进行智能处理,后者凭借其出色的任务拆解和逻辑推理能力为 Walker S 快速构建出最优的任务规划和执行路径。Walker S 则将这套方案映射到机械臂和灵巧手的实际操控中,最终流畅完成整套复杂任务。
此举也是国内同行类似能力的首秀,其创新应用和实现难度在全球范围内也属于行业第一梯队水平。“在很多展示中,包括 Figure 与 OpenAI 合作、我们与百度的合作,目前可以实现端到端。”优必选管理层在昨晚的业绩回顾与展望会上向第一财经记者表示。
“我们利用了百度的大模型对任务的拆解、对自然语言的理解和顺序逻辑排列等。除了公司去年基于开源模型训练构建的基于端侧的多模态大模型外,我们认为未来人形机器人市场竞争越来越激烈的情况下,强强联合才能实现1+1>2。”优必选管理层解释这次合作时称,“国外特斯拉有大模型能力,有 OpenAI、英伟达与 Figure 的结合等,可以看到合作能为人形机器人落地提供强大技术支撑。”
不过,通过对比 OpenAI 的视频,我们发现被赋能后的 Walker S 仍然与 Figure 01 存在差距。
最明显的是动作速度。另外在指令内容上,Walker S 所接收的指令通常比较明确和具体,Figure 01 则能根据更加抽象的指令,借由常识推理将其转化为合理可行的具体操作。
此外,Figure 01 能一边干活一边闲聊(尤其是解释自己的操作),并具备短期记忆能力,可根据之前的对话内容来合理规划当前的行动。
随着生成式 AI 竞争的日趋激烈,以及研究重点从长文本、多模态延伸到具身智能,我们有理由相信未来的人形机器人将不再局限于感知静态数据,而是能够在虚拟乃至真实的三维世界中自由行动、与环境互动。这也标志着 AI 将实现从简单的机器学习到复杂类人任务执行的重大跨越。
事实上,人形机器人赛道在过去半年已呈现出异常火热的势头,国内外原型机频频亮相,初创公司融资活跃。2 月优必选曝光 Walker S 在蔚来新能源汽车工厂试用的视频,机器人可以流畅完成安全带检测、车标贴附等工作。优必选股价也曾于 3 月初两天暴涨 200%。
。毕竟,demo 和实际应用的差别非常大,后者更要通盘考虑可靠性、稳定性、成本等一系列要素。优必选方面表示,AI 大模型与人形机器人的结合,将极大提升后者的智能化水平和多场景任务适应能力,加快其产业化进程。创始人周剑也公开表示,希望今年年底完成第一批人形机器人在工厂的落地,通过测试并为 2025 年人形机器人形成批量爆发做准备。此外,今年年底优必选计划推出第一代家庭端情感陪护人形机器人,该机器人将搭载大模型,能与用户互动并形成短期、长期记忆。
参考链接