聊模型的王兴兴

2025-08-14 09:06:22 | 来源: AICG工具箱

《智能涌现》制图

王兴兴表示，宇树虽然对于模型的投入保持谨慎状态，但其实“模型团队人数算多的”。

当行业里都认为，宇树是一个做机器人本体的公司，宇树科技创始人王兴兴，在世界机器人大会（WRC）期间的一番言论，打破了这刻板印象。

WRC上，王兴兴在他的主题演讲中，将大段篇幅留给了模型、算法和数据，其中不少观点引起了行业广泛讨论——

比如，对于当前机器人大火的VLA（Vision-Language-Action）路线，王兴兴直言，他持有一定的怀疑态度。他甚至认为，“这是一个相对傻瓜式的架构”。

原因是具身领域的现存数据量不够。王兴兴认为，当VLA模型与真实世界交互的时候，背后的数据质量、数量，并不太够用。

这已经是个共识，但不少具身公司都疯狂用堆真机数据、仿真数据、甚至建数采厂的方式来弥补。

王兴兴对此也直言不讳——“大家对于基础数据的关注度太高了”，相反，他认为应该把焦点放在具身机器人的模型架构上，因为现在的模型“不够好、也不够统一”。

此前王兴兴在公开场合中多次强调，宇树的核心优势在于机器人本体硬件而非大脑，过往的种种表述，很容易让外界产生，“宇树不做机器人大脑”的印象。

而在WRC期间，王兴兴向《智能涌现》等媒体表示，宇树虽然对于模型的投入保持谨慎状态，但其实“模型团队人数算多的，但相比于AI大厂算少的。”

△王兴兴接受媒体采访中《智能涌现》拍摄

但是，他也坚信，在模型上部署人员数量多寡，与最终的结果并不强挂钩——至少，从过去AI领域的经验来看，创新不一定在大厂中发生。

“不是资源多、钱多、人多，就能做出全球最好、最早的技术，一个中小型团队，也是有概率做出更好的模型，只是压力也会很大。”王兴兴对《智能涌现》等媒体说到。

在大脑的路线选择上，王兴兴选择多方**，他的另一个引发行业热议的论点，有关当下最热门的“VLA”。

王兴兴并不认同行业里在VLA模型还不够好的情况下，就疯狂堆一大堆数据去训练。因为，对于一个能力更强的具身模型来说，或许只要很少的数据，就能以更高的成功率做训练。

当然，宇树不是完全不使用VLA，在演讲中，王兴兴也提到，宇树也在尝试在VLA模型上，加AI进行训练。

不过，在大脑路线上，宇树显然会更倾向于视频的路线。去年，谷歌已经发布了视频驱动的世界模型，王兴兴说，早在去年，宇树已经尝试了类似的方法。

具体而言，就是先让视频生成模型生成一个「机器人整理房间」的视频，再用这个视频去驱动机器人，完成整理房间的任务。

△王兴兴演讲截图

王兴兴判断，这种视频的路线，未来或许会比VLA的路线发展更快、收敛的概率更大。只是，这种视频的路线也不是100%完美。由于对视频质量要求过高，会导致GPU消耗过多。

但未来机器人的算力问题如何解决，王兴兴也有了一定的预期。

他判断，未来机器人领域，需要搭建低成本、大规模、分布式的算力集群。他认为，未来如果一个工厂里有100个机器人，那工厂里面大概率可以搭建一个分布式的服务器集群，因为机器人需要更低的通讯延迟。

从今年春晚的机器人扭秧歌丢手绢，再到今年WAIC、WRC大火的机器人格斗，这让很多人以为，宇树的机器人不干活，只做表演。

尤其是，一众新入局者，都在费尽心思把机器人送进工厂拧螺丝、叠衣服、叠被子，形成了对比。

王兴兴直言，现阶段要让机器人进工厂、进家庭干活，并不太现实，而在当前，表演则是机器人相对容易落地的方向。

相反，在宇树的内部，思考如何让机器人干活的员工，也是最多的。

他也解释了为什么宇树很少对外宣传机器人干活的场景——“机器人干活，对于AI模型的挑战很大，目前我们的实现也并不理想。”

对于“干活”这件事，王兴兴提出了自己的看法——他希望，机器人不应该只做单功能性的事情，比如整理衣服、烧菜，而应该是通用型、多功能的，比如能在工厂端茶倒水，又能做表演。

王兴兴这次也对机器人的节点下了判断：机器人的ChatGPT时刻，最快可能2-3年实现，最慢可能是3-5年。他认为，这波具身智能浪潮，不会超过10年。

不过，ChatGPT时刻长啥样？

王兴兴设想了一个画面——在一个场馆里，人形机器人随意走来走去，你随机吩咐一个机器人做点事情，他都能帮你完成时，这才达到了机器人的“临界点”。

封面来源｜作者拍摄

欢迎关注

热门榜单

热门资讯