共计 7937 个字符,预计需要花费 20 分钟才能阅读完成。
机器之心报道
即使年轻的学术天才已成为当下AGI公司创始人的主流背景之一,2000年出生的杨丰瑜,还是年轻得让人意外。
本科密歇根大学计算机专业,耶鲁大学计算机专业博士生,年仅23岁的杨丰瑜,在去年开始了自己的具身智能机器人事业。
2024年,由他创办的UniX AI具身智能公司,在五个月内完成了一款轮式人形机器人的研发制造,这款带有「餐后清洁」以及「洗衣服」等功能的机器人将于九月开始量产,并对外销售。
在很多具身智能机器人仍然停留在实验室的阶段,这是一个很快的商业化速度。在苏州,UniX AI公司的机器人量产工厂已经超过两千五百平。
这家在去年几乎没人听说过的公司,在大半年内网罗了多位机器人行业内的资深技术人才。「有头部服务机器人的研发总监帮我们做底盘,也有一些头部的人形机器人公司顶尖人才在负责我们的硬件」。2024年7月,上海交大著名机器人专家王贺升教授,宣布正式加入UniX AI担任首席科学家。
在UniX AI释放出的首支技术展示视频中,名为Wanda的轮式人形机器人能够完成抓起豆腐、协助分类衣物、将衣物拿到洗衣机清洗等任务。当下具身智能公司难以解决的「柔性任务」问题,UniX AI似乎已经找到解决方案。
「我不觉得年轻有什么不好,从技术层面来讲,当下很多新技术、新产品,很多是由拥有深厚学术背景的年轻人创造的」,令我们有些意外的是,作为00后,杨丰瑜本人在谈吐中表现出超越年龄的成熟,对于公司管理和具身智能的技术阶段拥有非常清晰的认知。
我们对UniX AI的好奇集中在,一个在创投圈几乎没有任何消息的具身智能公司,为何能做到如此快的发展速度;作为极少的由00后操刀建立的具身智能公司,UniX AI如何实现从0到1的发展?UniX AI的具身智能终局路线图又是什么样的?
带着这些问题,机器之心与杨丰瑜展开了他创业以来的第一次公开媒体对话。
耶鲁00后 投身具身智能创业
机器之心:你现在已经毕业了吗?
杨丰瑜:我是本科直博到的耶鲁,博士毕业的论文要求我基本都达到了,就拿今年来说吧,我中了4篇CVPR,加上其他,总共有十多篇人工智能和机器人的顶会文章。
机器之心:你的精力很旺盛。
杨丰瑜:(笑),经常熬夜到凌晨三点半,前段时间还去打吊针。主要是因为团队在一起,经常不看手表,一抬头就已经很晚了。
机器之心:是什么时候开始想到要创业的?
杨丰瑜:我一直认为创业是“天时地利人和”。
去年我们看到感知层面在技术上有很大进步,包括视觉、语言模型和触觉等多模态的一些大模型或基座模型都有了很大的发展,这让我们看到了实现目标的可能性。另外国家也有一系列的支持政策推出,为创业提供了一个良好环境。这是“天时”。
“地利”:毋庸置疑,通用人形机器人是继新能源汽车之后的下一个发展方向,中国在供应链方面有着无可比拟的优势,而且长三角这边的高科技人才也非常多。
一开始,我们做了一些调研,去弄清楚目前机器人行业的工程化水平进展到哪个阶段、市场需求在哪里、上一代机器人解决了哪些问题以及它未来的机会在哪里?
能够成事,关键还是找到对的人。今年,我们正式组建团队,快速集结了很多方面的专家,有头部扫地机器人的研发总监,也有一些头部人形机器人公司顶尖人才,负责我们的硬件。在算法层面,我在美国以及欧洲招募了一批人才,包括我的一些同学、师兄,这是“人和”。
作为创始人和CEO,最重要的是集合资源。UniX AI是一个全球化的公司,把全世界不同国家在机器人软件、硬件、供应链的优势结合起来;同时我们有国际化的规划,通过一年、三年、五年计划的不断努力,实现Robots For All的公司愿景。
机器之心:简单介绍一下你的学术经历吧
杨丰瑜:小学到高中是在国内,本科去密歇根大学读了计算机专业。一开始接触的是视觉和机器学习,后来在导师「多模态学习」的影响下,开始进行视触觉的研究。
本科期间发表了5篇机器人视触觉论文,其中“Touch and Go: Learning from Human-Collected Vision and Touch”是世界上现今最大的视触觉传感数据集,被人工智能和机器学习领域的顶级会议NuerIPS接收。
在另外一个工作里,我们第一次引入diffusion model完成了对视觉和触觉之间的相互转化,成果被ICCV接收。
对于机器人来说,触觉很重要。一件衣服,是涤纶、棉纺还是丝,靠肉眼不太能够观察得出,只有真正摸上去,才能分辨不一样的质地。另外在一些精细活动上,比如将充电线插入充电口,也需要通过触觉不断调整,单靠视觉无法完成。
机器之心:然后你就来到了耶鲁。
杨丰瑜:因为在机器人视触觉方面的一些工作,特别是视触觉的转化和在大语言模型中的泛化运用,我获得了北美计算机协会杰出本科科学家称号,是学校有史以来第一人。最终选择耶鲁大学进行博士深造。
在这期间,我陆续发表了一些论文,其中《Binding touch to everything: Learning unified multimodal tactile representations》(CVPR, 2024, pp.26340-26353),在这篇论文中,我提出了世界首个适用于多款不同触觉传感器的触觉大模型 UniTouch,适用于与视觉、语言和声音等多种模态相连的基于视觉的触觉传感器。
另外一篇论文《Tactile-Augmented Radiance Fields》(CVPR, 2024, pp.26529-26539),则建立了世界上第一个可以在场景级泛化的3D视触觉模型TARF,UniX AI人形机器人的泛化能力也是基于该模型。
机器之心:你觉得00后的身份对你来讲是更有利还是更有弊?
杨丰瑜:创业公司,创始人是灵魂。很多人会觉得我很年轻,但我觉得00后的身份不是问题。
从技术层面讲,在迎接这一轮的科技变革和赛道创新的浪潮中,年轻人具有非常强的推动作用。很多新技术、新产品是由当下的年轻人创造的,特别是高科技行业,准入门槛相对较高。Sora核心团队的成员之一也是我同学,他在密歇根大学时就展现出了很强的技术能力。
从认知和经验层面讲,我觉得快速学习、快速纠错也是一种路径。另外是个性,要肯坚持有韧性,想尽一切办法,有“逢山开路,遇水搭桥”的精神,毕竟创业最后都是拿结果说话。
当然,UniX AI团队中也有很多有经验的专家,他们在结构、电子等方面有丰富的从业经验,我们之间有效配合,才能在短时间内推出我们的产品。
视触觉+操作 提升机器人可泛化能力
机器之心:触觉的提升为什么对机器人是重要的?
杨丰瑜:人是一个多感官动物,你的行动决策通常是多个感官共同传递过来的信息综合影响,智能机器人理论上也是这样。
触觉是最重要的感官信息之一,跟视觉反馈相比,它产生在机器人与环境交互之后,而视觉反馈是在之前。当机器人抓取一个物体时,物体发生了形变,本质上,这个交互动作发生后,机器人获得的增量信息都来自于触觉——它摸起来是怎样的。
拥有触觉信息能够让机器人在一些更复杂更细腻的任务上表现得更好,大大提高抓取任务的成功率,尤其是在柔性物体的抓取中,触觉的作用更加明显,可以说是从基本不可能完成任务到能够完成任务的质的提升。
比如,我们的轮式人形机器人Wanda已经实现捏鸡蛋、抓豆腐、洗衣服等任务,纯靠视觉去做,机器人得不到反馈,是很难执行下来的。
为什么现在机器人主要依靠视觉做判断,是因为视觉方面的数据相较于其他,是最直接、容易获取且被训练起来的,有大量数据可以用。但是在机器人往具身方向更进一步去走的时候,仅仅依靠视觉是肯定不够的。
作为一种依赖交互产生的感官信息,能够将触觉信息合理运用的意义还在于,机器人能够逐步在与世界的真实交互中不断学习,变得更加可用和泛化。
机器之心:为什么加入触觉后,机器人对柔性物体的控制水平会提升,原理是什么?
杨丰瑜:原理主要在于柔性物体与刚性物体在抓取和操作时有很大的不同。刚性物体在触碰前后,其物理形状基本不会改变,因此通过视觉观察,在抓取时相对容易判断。然而,柔性物体在抓取之前或操作之前,通过观察很难确定与它接触后会发生什么情况,因为在抓取过程中会出现大量的遮挡和形变,而这些形变通过视觉是很难准确预测的。
例如,当拿一张纸巾时,一旦将纸巾握到手里面,就会完全遮挡住视线,此时视觉几乎无法提供有效的信息来判断如何抓取或操作。在这种情况下,就只能依靠触觉等物理信息来完成感知。
机器之心:为什么好像很多时候我也不需要去尝试抓一下物体,我就知道怎么抓。
杨丰瑜:那是因为你作为一个人类来说,已经融合得很好了,以至于你不知道你用了触觉信息在这里面。你已经积累了二十多年的触觉数据,所以你不知道是哪一种感官支持你让你去完成了这个任务。
机器之心:对大部分机器人任务来说,不同感官的贡献比会有什么区别?现阶段,触觉的优先级有多高?
杨丰瑜:对于大部分机器人的任务来说,不同感官在感知、推理决策和行动这三个步骤中的贡献比例有所不同。
在感知层面上,初期主要依靠视觉和点云来获取全局信息,比如知道整个家的布局、水在哪里等。目前,通过视觉大模型和3D大模型来感知全局信息的问题已基本解决。
在决策层面上,主要依靠语言引入人类的先验知识。例如,机器人接到从冰箱拿水的指令后,能进行任务拆解,知道第一步打开冰箱,第二步拿水,第三步关冰箱,这些先验知识来自大量的互联网数据。
在行动层面上,视觉可以帮助机器人确定抓取的位置,但在确定抓取力度等方面,触觉信息起着重要作用。比如在有遮挡的情况下,像拿豆腐时,视觉难以准确判断抓取方式,而触觉能提供关键信息,帮助机器人完成精确抓取。
此外,触觉在一些精细力控的场景,如捏鸡蛋、抓豆腐等,以及在一些需要判断物体形变和力的反馈的场景中,发挥着重要作用。
总的来说,不同感官的贡献比因任务而异,在一些刚性物体的抓取中,视觉可能占比较高;而在很多柔性物体的抓取中,触觉的作用更为关键,甚至可以说是从基本无法完成任务到能够完成任务的质的提升。
机器之心:触觉这块有足够高的壁垒吗?落地到机器人产品里有什么难点?
杨丰瑜:我认为相对来说是比较高的,在2023年之前,触觉一直是一个非常小众的模态,与视觉和听觉相比,从事触觉相关工作的人非常少。
在开展触觉相关工作的初期,传感器是最大的难题。当时,全世界从事数据相关工作的人并不多,如何制作传感器是一个关键问题。
其次,是如何解析触觉信息的问题,这涉及到算法和数据两个层面。数据层面,此前世界上绝大多数触觉传感的具体数据并不公开,这可能是由于许多机器人结合的特殊性或其他原因导致,使得机器人领域的数据公开程度不如视觉领域。因此,我们不断解决数据集的问题,致力于推动全世界触觉传感数据集的不断公开。
在算法层面,触觉与视觉存在差异,其中包含许多物理的先验知识。例如,通过传感器上的marker可以判断受力情况,但这些信息不像视觉信息那样易于解释和识别。
当时还进行过一个实验,结果表明生成的触觉信号让人分辨起来非常困难。因为如果人没有经过一些特定的训练,很难分辨出每一种东西的触觉传感信号。我们也在积极努力降低这一壁垒,推动学术界更多的人参与其中,以促进整个触觉域的发展与进步。
机器之心:如果说,触觉信息不仅面临现存数据量少的问题,大规模采集成本也很高,那怎么去做到Scale up?
杨丰瑜:我们之前做的工作其实就是尝试解决这个问题,如何在大规模采集难以实现的情况下做到Scale up:
第一步,我们把视觉和触觉打通,通过视觉来预测触觉,甚至在没有触觉采集的场景中,利用视觉和语言等信息来推测触觉信号。
比如,采集了同类型同材料的桌子的触觉信息后,到新的家庭或办公室场景中,即使没有实际触摸过过新的桌子,也能通过视觉和语言信息推测其触觉信号。这样的话,我们可以做到即使没有真正物理的接触,也能够扩大可用数据集。但是这种方式可能跟真实信号有一些出入,因为这是预测的。
第二,我们不断推动触觉数据集的公开。通过公开数据集,可以让更多人参与到触觉领域的研究和发展中,从而促进整个领域的进步。
第三,在算法层面上,我们努力降低触觉信息识别的门槛。例如,通过在传感器上添加标记(marker),并发现标记在受到不同力时的变化规律,从而利用这些物理的先验知识来更好地解析触觉信息。
第四,致力于将不同的信息,如视觉、触觉、语言等多模态信息结合在一起,以完成各种任务。通过多模态信息的融合,可以在一定程度上弥补触觉数据量少的不足,提高模型的泛化能力和适应性。
机器之心:大规模采集是否可以实现,需要什么条件?
杨丰瑜:我认为这其实是整个具身智能发展的瓶颈,我个人认为可以实现大规模采集,但这里有一个商业化的过程。
当机器人走进千家万户,有一定量的时候,你就能收集到足够多的数据,支持更多的场景来做一些泛化。当然你不可能永远采到每一个点,所以「大规模」这个命题会一直存在。那机器学习的本质就是通过稀疏的采样,实现稠密分布的一个模拟拟合和预测。
在数据这方面,我们并不排斥模拟,但我觉得一定量的真机数据是实现具身智能的必要条件。
机器之心:触觉大模型有哪些关键的技术指标?
杨丰瑜:触觉大模型跟任何大模型一样,在不同的下游任务里面都有一些指标。我带领团队构建的世界上现存最大的视触觉数据集Touch and go,是全世界机器人视触觉预训练模型重要通用基准之一。
具身智能机器人Wanda 九月开始量产
机器之心:决定创业之后,打算做一个怎样的具身智能公司?
杨丰瑜:创业的本质是为社会创造价值。UniX AI是世界上少数几家把C端定为第一战略的具身智能机器人公司。
TO C虽然有很长的一段路要走,但背后的潜力是巨大的。从产业层面讲,人形机器人已经进入硬件+AI的技术融合期,发展飞速,越来越具备实用性。而且我乐观估计,这个融合进程要比原先业内人士预估的要快很多。
人口老龄化,出生率低下,劳动力短缺……这些都是全世界面临的问题。企业的责任是要为社会解决问题,这是UniX AI的机会点和价值点,也是我创业的初心。现在这个赛道大致的落地路径基本上是工业——商业——家庭,我们会覆盖商业和家庭,这也是服务TO C用户的主要场景。
UniX AI的愿景是Robots For All,打造通用的人形机器人,在运动能力与智慧程度方面都做到领先,实现体力劳动和智能陪伴。
机器之心:为什么一开始选择家庭场景去做?
杨丰瑜:事实上我们不只局限于家庭场景,我们也做泛商业的场景,比如办公室等。
To B 场景从技术上来说相对难度低一些,重复率高,对泛化性要求没有那么高。但To B的场景往往是强替代逻辑,这就对机器人的速度、操作准确率要求会非常高。
家庭场景很复杂,千变万化,每个家都是一个小生态,要求机器人具备很强的泛化能力。这当然对我们的产品提出了更高的要求。同时,我们在家庭场景中也会有很多L2级别的功能,更多地提升了产品在复杂场景的适应性和可玩性。
总的来说,我们的技术栈无论是 To B 还是 To C,都能覆盖。做好了家庭场景,我觉得其他场景都能游刃有余。从最难的骨头开始啃,一方面体现了UniX AI的技术实力,一方面也是我们切入市场的战略路径。
机器之心:像类似工厂这样的To B场景也会去做吗?
杨丰瑜:我们对所有场景都不排斥,UniX AI的模块化硬件方案相对来说可以适配很多不同的场景。同时,我们有一套感知和操作解耦的运动基元算法可以最大程度地利用数据,我们对场景的迁移性会非常强。虽然每一款产品都有其边界,我们愿意在各种场景中进行尝试和拓展。我们也在跑通一些重要的商业场景,帮助到消费者。
机器之心:所谓的供应链成本优势是什么?
杨丰瑜:我们团队中有一批经验丰富的供应链管理专家,他们掌握量产级的成本控制方法,并能将其应用到机器人供应链中。虽然机器人行业目前尚未大规模卷价格,但我们从一开始就按照量产级来控制成本,以确保产品能达到消费者可接受的价格。我们有信心通过有效的成本控制,使产品在价格上具有极强竞争力,为公司发展提供有力支持。
机器之心:即将推出的产品价格在什么区间?
杨丰瑜:这个现在我不是很方便披露,但我可以保证,一定是一个很惊喜的价格。
机器之心:你们打算怎么走向终局?
杨丰瑜:我们走向终局的逻辑很简单,需要一定量的高质量真实数据。关键就在于如何获取这些数据,比如拿自动驾驶举例,特斯拉的FSD能够走到终局,是因为花了6到8年时间,不断有车子在路上跑并收集数据。
机器人行业有所不同,大家期望机器人能够自动干点事儿。我们首先开发出若干单点场景的功能,让大家觉得机器人有用或好玩,而且在消费能力承受范围内,这样大家才会愿意购买。
我们的供应链有优势,能把价格降下来,这是很关键的一点。通过用户的不断反馈,我们不断优化迭代产品,最终打造出通用的具身智能机器人。
机器之心:机器人量产的难度和意义在哪里?
杨丰瑜:做DEMO其实很容易,只要在实验室做出来一台,就是成功。量产的难度,在于不是一台,而是一百台、一千台真正进入到用户家中,考验产品的数据安全性、操作稳定性、底层控制可靠性,背后需要强大的售后团队和不断迭代的技术团队。另外工艺也很重要,这也是考验量产能力的重要指标。
它的意义当然毋庸置疑,一方面体现出供应链的竞争力,一方面展现了技术的成熟度。谁是第一个吃螃蟹的人?谁又吃得又快又好?另外,量产可以得到一定的先发优势。
机器之心:决定创业以后,初始团队构建思路和团队组建情况目前大概是怎样的?
杨丰瑜:从0-1,初创团队很重要。我做事习惯先有顶层规划,再慢慢部署到每个层级,像瀑布流一样,从上往下。先找到最核心的关键人,干起来之后,再向下延伸不断完善团队,让整个轮子转起来。
从去年年底到现在,我们的团队发展非常快,已经迭代了三代产品。目前团队规模已经初具规模,但后期我们还会根据需要,不断调整和完善,让公司的竞争力愈来愈强。
获取人才这件事,是创业公司最重要的事情之一,我们公司大部分的人才我都亲自看过面过。很多时候,CEO不仅是首席执行官,更是“首席意义官”,需要跟同行者解释我们做的事情,它的价值和意义在哪里。让他们认同,一起上路,这非常重要。
同时,这个阶段我的管理半径很大,管理的颗粒度也很细,非常辛苦但很有必要。只有当自己全盘掌握,确认公司前进方向正确和稳定之后,才能花更多时间在别的方面。
机器之心:你怎么吸引这些人才?
杨丰瑜:本质上吸引大家的,还是如何走向具身智能终局这个路径,除此之外是怎么做的问题。
我们有几个亮点,第一有非常强的供应链成本优势,其次我们团队的执行力很强,迭代速度非常快,很多候选人可能第一次知道我们时,觉得我们不过尔尔,但几周后再来,发现场景已经跑通了,进展很快。我们也有一些国内顶尖机器人公司的人才,主动要求加入进来。
机器之心:目前的资金来源是?
杨丰瑜:我们会在合适的时候统一披露。
机器之心:是否有外部融资计划?
杨丰瑜:目前投资人反馈非常踊跃,欢迎和我们有共同通用具身智能愿景的投资人,和我们长期走下去。
机器之心:再详细介绍一下你们即将推出的产品,以及未来的市场计划?
杨丰瑜:我们即将量产的机器人叫Wanda,是一款轮式人形双臂机器人。在我们发布的首支技术视频中,大家可以看到它的一些功能特点,但这不是全部,等到九月份我们面向消费者公开发售的时候,会有更多惊喜细节。
最终,UniX AI希望交付给消费者的产品,是一款通用的具身智能机器人,不仅服务于家庭,更可以陪伴人们去往更多更远的地方,提供更多的功能,这需要我们在技术上不断发展,也需要公司和用户之间的协同共创。不积跬步无以至千里,那我们先从第一步开始。
More:
AI Pioneers 系列人物专访(点击跳转):|||| | ||
联系作者:jjingl- (添加请注明姓名-公司-职位)