王兴兴：具身智能机器人的最大挑战是模型而非数据

发布时间：08-13

微信图片_2025-08-11_170840_861.jpg

8月9日，宇树科技创始人、首席执行官兼首席技术官王兴兴在2025世界机器人大会主论坛上发表了题为《机器人产业规模化的机遇与挑战》的主旨演讲。王兴兴表示，当前智能体机器人的整机硬件已经够用，最关键的挑战是模型问题而非数据问题。机器人大模型的临界点或将在未来3-5年的时间到来。

当前，全球机器人在技术加速融合、多国政策支持与投资加码等因素驱动下，市场持续扩张，特斯拉、苹果、英伟达、Meta、Open AI等全球头部科技企业纷纷发力布局。王兴兴指出，在需求端拉下整个机器人行业快速增长。2025上半年，机器人整机厂商以及零部件厂商的平均市场增速达50%-100%。

就智能体机器人的整机硬件发展情况来看，王兴兴认为，目前包括人形机器人硬件、灵巧手整机等硬件虽然不是非常完美与成熟，但在当下发展阶段已经足够用了；未来在硬件层面主要是需要持续完善硬件细节，降低成本，增加使用寿命与可靠性等。

王兴兴强调，智能体机器人当下和未来所面临的最关键挑战是机器人大模型，这也是限制人形机器人大规模应用的最大阻碍。

目前机器人大模型的发展进度类似于当时ChatGPT发布前1年-3年的那个阶段。目前业界已经发现了类似的方向以及技术路线，但还没人真正将其做出来。

机器人大模型的“ChatGPT”时刻何时到来？王兴兴认为标志性的临界点是机器人能在完全陌生环境中听懂指令并流畅执行任务。比如以下场景：未来有一天，人形机器人来到一个它之前从未见过的全新会场，在“将一瓶水传递给某位观众”的指令下，机器人可以顺畅地完成这件事；或者来到一个完全陌生的新房间，可以成功地根据指令去整理好房间。王兴兴表示，这一临界点最快可能在未来的1-2年实现，慢的话可能需要3-5年。

“之所以目前机器人还未能达到上述效果，现在最大的问题是模型问题，而不是数据问题。”王兴兴认为，目前全球范围内大家对于数据方面的关注度一定程度上是偏高的，反而不够关注模型问题。

谈及当前最火的具身智能模型——VLA模型（Vision-Language-Action Model，即视觉-语言-动作模型），王兴兴认为，目前VLA模型的实用性尚存在局限。VLA模型在对真实世界交互的时候，其数据质量实际上是不太够用的。即便是在RL（强化学习）的加持下，该模型架构依然需要继续去进行升级和优化。

“世界模型”是迈向通用人工智能（AGI）的重要阶梯，其通过学习环境的时空动态，不仅预测未来状态，还能评估自身行动的后果。以谷歌DeepMind于8月6日发布的第三代通用世界模型Genie 3为例，在AI训练应用场景中，它可以为机器人等智能体提供低成本虚拟训练环境，支持复杂任务的长时程模拟。王兴兴认为这一路线值得关注，世界模型可能会比VLA模型更快落地。此外，机器人学习新技能需从头训练，无法复用旧知识，亟需实现类似大模型的持续学习能力。

关于未来2年~5年智能机器人技术的发展重心，王兴兴总结了以下几点：

一是统一端到端智能机器人大模型。二是更低成本、更高寿命的硬件，以及超大批量的制造。三是实现低成本、大规模算力，尤其是分布式算力。

最后，王兴兴强调，机器人行业是一个需要全球共创的领域，国内外企业都在做出自己的贡献。正如在AI领域一样，没有哪一家公司能够保证会拥有足够的人才、足够的资源去让自己在AI领域一直领先。

收藏微博微信