云启资本对话:AI落地物理世界,难点在哪里?

原标题:云启资本对话:AI落地物理世界,难点在哪里?

一年一度创投圈盛会如约而至。2025年12月2-5日,由清科控股(01945.HK)、投资界主办,汇通金控、南山战新投联合主办的第二十五届中国股权投资年度大会在深圳举行。本届大会集结逾千位顶尖投资人、领军企业家,打造兼具深度洞察与互动活力的“创·投嘉年华”,致力成为观察中国科技创新的窗口。

本场《创新与边界:AI 落地物理世界》圆桌派,由云启资本合伙人陈昱主持,对话嘉宾为:

自变量机器人创始人&CEO 王潜

元戎启行CEO 周光

以下为对话实录,

经投资界(ID:pedaily2012)编辑:

主持人-陈昱:大家好,我是云启资本的陈昱。很高兴能和两位在AI落地物理世界最前线的创业者,一起聊聊当下一个非常重要的话题——AI正在从模型能力竞争走向物理世界的执行能力。

过去两年,我们看到生成式AI飞速发展,模型变聪明很快,但让AI在真实世界可靠地执行,需要完全不同的体系能力。今天我们邀请到物理AI领域的两家独角兽公司——自变量机器人和元戎启行,和他们共同探讨AI进入物理世界时会遇到的挑战,以及其中的想象空间。首先,请两位介绍一下各自公司和正在做的事情。

王潜:自变量是一家做具身智能基础模型和通用机器人的公司,我们做机器人大脑、整机,也包括更上游的灵巧手,核心我们是一家AI公司,一家基础模型公司。今天很多人还是认为具身智能是一个AI的垂直应用,或者是一个大模型在物理世界的衍生,但物理世界本质上和虚拟世界的差异实在太大了,我们需要的是一个完全生于物理世界、服务于物理世界的,平行于语言模型、多模态模型的另外一个基础物理模型。自变量的定位首先是基础模型公司,其次是人形机器人公司,最终给客户提供软硬一体直接面向终端消费者和客户的产品。

周光:元戎做自动驾驶很久了,见证了这个行业的起起伏伏。早期的自动驾驶是基于高精度地图技术、模块化的,后来到端到端,以及最近比较热的VLA。自动驾驶是机器人领域第一个能够走量,能够以海量数据集做好预训练的行业。我们也发现数字世界到物理世界差距非常大,在物理世界打造一套数据模型挑战是巨大的。目前来说,我们在这方面有着相当不错的成绩,我们的产品已经跨越了实验室demo的阶段,成功服务广大的消费者。目前累计有20万辆搭载我们辅助驾驶系统的车进入了消费者市场,明年预计有百万级的车辆会搭载我们的系统。在见证海量级数据之后,在经历了从模型难到行动难的过程,我们还是挺有感触的。

主持人-陈昱:接下来我们展开聊聊。做模型已经是很难的一件事情,而要把模型变成真正具有行动力、能够在物理世界落地的系统,难度会更高。在模拟器里跑得很好,并不代表这个模型就work,因为真正到物理世界会遇到各种各样的问题。请两位分享一下,AI落地物理世界时,最大的难点在哪里?你们在过程中会碰到哪些在实验室环境没有遇到过的问题,怎么解决数字模型落地物理世界的瓶颈?

周光:我们拥有超过二十万台车辆在道路上行驶,持续采集第一视角的数据。基于采集到的海量数据,首要任务是做好预训练,这并不简单。端到端加上语言模型之后,由于语言本身涵盖丰富的语义知识,对数据量的需求显著降低,预训练的学习速度也得到明显提升。

在自动驾驶领域,无论是特斯拉还是我们,模拟器用得并不多,我们还是觉得先做好预训练,再通过强化学习,提升最后的几个关键指标,并不是没有预训练直接上强化学习。而且强化学习的监督信号非常稀疏,通常只在最终给出一个总体奖励,就像我们路上开车,刹车早了0.1秒或者迟0.1秒,可能人都会很不舒服的,这些情况很难通过模拟器去描述。我们观察到,在预训练充分的基础上引入强化学习,能够有效提升最后几个关键的安全指标,从而增强系统的安全性。

王潜:模型落地物理世界主要是三个大的方向:第一个是Local Motion,现在大家已经做得非常好了;第二个是Navigation,基本上也走通了。

周光:在很大程度上这是依赖于高精度地图(SD Map)的。在小区、写字楼这些复杂环境内不借助SD map还是比较困难,但现在在VLA模型的加持下,就有了一定的成功率,因为VLA已经在未知环境中已经展现出一定的自主导航能力。

王潜:或者说,自动驾驶基本上已经把普遍意义上的Navigation包得住,但是Manipulation,也就是我们主要做的部分,性质上和那两个领域差异非常大,一个是数据比较难收集,没有那么多的训练数据。从问题性质上来说,还有另外一个很严重的问题,涉及到的物理过程比较复杂。

我们可以想象,自动驾驶没有什么特别多的物理过程,基本上都是感知问题,涉及到的控制没有特别多的随机性或是发生很多难以预测到的过程。稍微难一点的是刚才提到的Local Motion,要翻跟头、跑步、跳舞。但相对来说,Local Motion也是简单的,因为它一直对抗的是持续的、恒定不变的重力场,跟地面接触稍微偏一点没有太大的关系。但手上操作,在这个层面和所有其他领域都很不同的一点是,即便非常微小的误差,就会导致最后的效果差异非常大。微小的误差是日常过程中忽略的物理过程所引发的,比如一些轻微的磨擦、碰撞过程。

从这个角度来讲,刚才陈总提到的一点很重要,为什么在模拟器里跑很多东西跑得很容易,基本上不会出任何问题,一拿到现实世界中就会出现所谓的Sim-to-Realgap,当然肯定有很多所谓的perception gap,看到的东西和模拟器里面的不一样,但最主要的还是physical gap,在仿真器模拟出来的物理规律不对。

王潜:绝对的刚体问题到今天仍然没有完全解决,一样会有穿模的问题,在非常高频率的模拟之下会有碰撞上不精确的地方。非常微小的不精确,对最后的结果影响还是非常大的,这是Manipulation非常特殊的一点,也是为什么它是在刚才提到的三个领域算是最后走出来的,也是AI领域里最后走出来的。

周光:对人抓取东西而言,触觉是非常重要的。这类触觉信息,往往是通过人手上的三种不同类型的神经元来采集的,当前机器人主要通过压力传感器来模拟此类功能,还达不到人的采集精度。

王潜:传感器是一方面,其实是可以通过纯视觉的方法获得足够的信息量,并不一定要有完美的触觉才能做,但前提条件是这个过程一定得是对的,如果在仿真器里面哪怕有非常好的数据,效果也是差的,因为本身做的物理过程是不对的,获得正确的物理过程是非常重要的。

主持人-陈昱:如果大家相信纯视觉可以解决问题,视频数据确实相对是最容易获取的。但在缺乏触觉或其他信息的情况下,模型能够更好地学习物理规律吗?

王潜:首先肯定不能完全靠视觉。通常来讲,视觉能够获得的信息量比一般意义上的要多很多。但实验显示,一个人打上麻醉剂,剥夺掉触觉,通常来讲所有事情还是能做的,只是做得很差,成功率就会变得很低。经过学习,成功率可以恢复,但还是和有触觉的表现下差距非常远。我们认为触觉某种意义上极度重要,但not so necessary。

周光:比如说人类的痛觉,人是从小有痛觉,然后形成了痛觉相关的神经通路。人如果因为疾病失去痛觉了,之后还可以活得很久,但天生没有痛觉是很难活得久。

王潜:视频预训练是很重要的,我们可以获得大量的信息做预训练,这一定是得有的,而且这是免费的数据。如果免费的数据都不能充分利用起来,凭什么说能够用得起(仿真)那么贵的数据,这肯定不合理。第二,机器人操作最后一定还是要有大量熟悉触觉的训练,最后才能接近达到人类或者超越人类的水平。

主持人-陈昱:语言模态是否是必须的?大家都在讲VLA这个概念,但也有一些声音认为语言模态未必是必须的。你们是怎么看的?

周光:理论上来说,语言是个能帮你在学习过程中快速学习的一个能力。可以这么理解,你去学开车,如果只是天天跟着教练看,不知道在这个路口停下来是因为红灯还是因为有人。语言是个非常好的监督信息,告诉你说这次停车是因为有红灯,下次停车是因为行人。这些信息帮助你快速收敛,在训练过程中语言是极其重要的。

另外,在推理过程中不再是黑盒,对用户来说增强了安心感,这十分重要。尽管在开车的时候并不时刻需要通过语言进行交互,但在训练过程中,语言所承载的监督信息至关重要,若缺乏此类语义引导,模型的学习将难以有效收敛。因此,语言的核心作用在于训练阶段提供明确的行为指导,并在部署阶段提升系统的可理解性与可信度。

王潜:具身和智驾还是不太一样。在地图上点一个地方,(汽车)开到那个地方就行了,人形机器人是要说话的,而且要密切、详细地说话,语言这个模态需不需要,我觉得没有什么争议,一定是需要语言。

现在大家在人形上争议比较大的地方是:有一些单点的垂直场景需不需要具身智能专用模型。我的看法是,需要带有语言能力的统一具身基础模型蒸馏出来一个小的模型放在某个单点的场景上可能是更合理的做法。自从这一代大模型出现之后没有看到任何专用模型在能力上限上超过操作通用模型。如果我们追求极致的性能,一定要先做通用模型,之后再抽取专用的部分,这是合理的。

其次,为什么语言今天很重要?因为它实质上是我们之前训练多模态模型的核心部分,大家刚开始做多模态还会争议应该以语言为核心还是以视觉为核心,现在做出来效果比较显著都是以语言为核心。利用已有的多模态模型的“遗产”,我们没有办法绕开这个部分,肯定还是要以语言为核心的多模态模型为基础,再探索怎么用到具身领域。

对于未来的看法,语言未必会在以后统一的物理世界基础模型占据核心位置。“说话”通常来讲和动作的实践、空间的尺度是不匹配的,语言很难描述非常短时间的过程,很难描述非常精细的空间位置关系。比如拧开水瓶,很难用语言表述这个轨迹是怎么样的,往哪个方向用力,因为时间很短,空间只有几度的差别,没法用语言去说。

从这个角度来讲,未来物理世界基础模型还是要在一定程度上摆脱语言,但是语言这个模态永远会在这儿,人类还是有跟机器人说话的必要性,不仅是情感需求,还是做任务时,都要通过说话这个交互界面,所以把语言融入在整体模型架构里是自然的选择。

主持人-陈昱:你坚信物理基础模型最后是被训练出来的。但这件事和大语言模型不太一样。大语言模型收集语料成本相对来说是比较低的,物理基础模型要穷尽所有可能的动作、看过所有的物体以及它们的材质之类的,这里面的成本会特别高。

王潜:时间倒退回15年前,我们刚开始做AI,或者再往前倒退,比如倒退到大家有AI概念的时候,为什么大家相信AI能做出来,本质上是因为已经有一个Intelligent system摆在我们面前——就是人。如果我们承认世界是唯物的,承认人脑是比较大一点的神经网络,没有任何理由没法训出来。

回到能不能训出物理世界的模型,一方面我认为今天收集数据的总量已经有一个大概的认知了,之前在我们内部一直是保密状态,今天有一些友商,比如Generalist经放出来了一些对于具身领域的Scaling law预测,和我们自己的预测还是非常接近的。按照这个预测,是可以在合理的时间范围内,在合理的资源投入下,收集到足够的数据去训练真正意义上的基础模型。在那个时间之后,可以从现实世界中把卖出去的机器人数据收回来,至少冷启动这一步完全是在可控的范围之内,这我们还是有充足的信心。

人预训练的过程需要的数据量没有那么大,从生下来开始,长到10岁,基本上是万小时到几十万小时的数据量。但在几十万小时的数据量训不出来像人一样的系统,因为训练机制是不一样的,包括数据的特性也是不一样的。可能有人说耗尽地球的资源都做不出来。但信息量肯定是够的,只是需要更巧妙的方法把它利用起来,哪怕目前没有,我们有比较好的估计,有相对比较充足的信心,应该在未来某个时间点达到某个水平,这个估计相信各家都有,也是大家比较坚定做具身智能的原因,相信大家心里还是有足够好的判断。

主持人-陈昱:刚才我们讨论了很多技术上的话题,现在来讨论另外一个大家感兴趣的话题——规模化和商业化。自动驾驶在这两年当中发展非常迅猛,几年前还很少能看到高阶辅助驾驶的量产车,而现在十万元以上的新车基本都慢慢开始标配了。你们是怎么看待这个产业的变化?比如元戎,从实验室的一台车,到小规模量产,到今天20万台车,明年百万级规模,整个量产的过程当中,最核心依赖的能力是什么?又是如何保证这件事可规模化复制?

周光:早期自动驾驶技术主要基于传统方案,没有规模,通过构建高精度地图并通过写规则来实现,这是比较简单的,直到今天依然有很多人用非常传统的方法来做。在2024年我做过一个预测,要想做好端到端得要1万台车,做好VLA则要10万台的规模,现在来看是比较符合预期的。

技术落地需要循序渐进,最初我们构建端到端的基础能力,实现量产后逐步形成健康的商业闭环,这并不是说一下子就替代掉人。随着车辆规模从1万提升至10万,系统可以引入语言模态增强学习能力,并进一步优化模型性能。这中间有很多工作需要做,就比如工程层面的工作,处理万级车辆规模的时候,需解决物理设备管理等问题,这一过程涉及大量繁琐但关键的工作,包括数据挖掘、样本筛选和质量校验。

当前20万台车,每天产生的数据是海量的,需根据模型容量进行精细筛选,而非盲目追求学习能力。同时,电耗、训练效率、参数规模等资源限制要求工程层面优先解决low hanging fruit的问题。我们清晰地感受到,在车辆规模达到10万级的时候,数据多样性已足以支撑基础感知与决策,但进一步提升性能则需引入语言模态。

主持人-陈昱:具身行业现在有点像十年前的自动驾驶——大家都还是处于demo的阶段,技术没有收敛,场景也没有收敛。

周光:技术路径不一样,不会用十年前那样的做法了。

王潜:也有。

主持人-陈昱:我们也看了很多家企业,路径并不那么统一,自动驾驶也经历过很多技术范式的迭代,从一开始的分段式到端到端,现在的具身路线也是百花齐放的。在商业化方面,不同公司有不同的考量,有些企业在技术还不完全成熟时就尝试商业化,想尽快进入资本市场,而自变量更加聚焦基础模型的研究。想问一下王潜总,你自己怎么看待具身行业的商业化节奏?你认为这个行业什么时候才真正准备好做可规模的商业化?

王潜:这个事我最近感触非常深,到年尾了,很多人来问两年前你在干什么。想到两年前的时候,几乎所有一级市场的投资人,包括大部分的创业者,快速要挑一个垂直场景去落地,在这个垂直场景跑起来,有一个正的现金流,有很好的循环,很快就能长得很大,对于站在那个时间点的认知来说无可厚非。

但是现在,很多当时持有这个观点的投资人跑回来讲:“终于明白你当时的观点是对的,Foundationmodel才是核心,过早地做商业化有点浪费时间、浪费资源。”今天很多投资人过来这么和我讲。

某种意义上我们还是要求真,计较一个事应该怎么样,或者说它客观发展规律是什么样的,客观规律是没有办法靠人的主观意愿来撼动的,两年前的状态,没有基础模型,只是做某一个单一场景,确实做不动,当时说过很多次,如果真的能做出来,80年间早就做出来了。刚刚张院士的演讲,基本上汇聚了以前大家所做的事情,没有做基础模型的时候大家所能够达到的巅峰。

说回到今天,基础模型的发展已经达到临界点了,2026年应该是具身智能商业化非常具有标志性意义的一年。2023-2024年几乎能给市场消费者、客户提供的只有情绪价值,或者是平台价值、资源置换价值,没有任何一个场景可以看到具身智能公司给客户提供有用层面上的价值。

这种商业化,你说它不是商业化吗?当然也是商业化,可以撑起一些收入去上市,但可持续性或者是特别大的持续作用,我个人还是不太认可的。2026年,我相信一定会批量地出现一些真正意义上有正ROI的场景,真正给客户提供超越机器人价值的具身机器人,狼来了喊了两年,这一次可能真的是狼来了。

主持人-陈昱:你觉得最可能是什么的场景?

王潜:实际上有两类场景,一类是1X,或者像Sunday展示的场景。

周光:对,OneX我觉得不错,用的是全世界的劳动力薪酬差,去获得数据。

王潜:理论上想做的不是简单的劳动力传输。

周光:它是为了做完成数据上的逻辑闭环,要解决隐私性问题。

王潜:具身智能不可能一下子成为今天的手机或车这个级别的事,早期的渗透肯定是明年会开始出现,在美国和墨西哥之间,或者是日本和东南亚之间,欧洲和土耳其之间,这种劳动力差距,足以支持商业价值的出现。

周光:同时解决了技术模型真实数据来源的问题。

王潜:还是得提醒一点,具身智能没有那么容易做,这件事还是高度困难的事。

周光:对,不仅仅是技术层面。

王潜:各个层面都很难,技术层面也不简单。今天普遍意义在做的,是适用于强化学习做后训练的简单任务,最近感觉强化学习这一侧也有比较明显的进展,当然这些进展说白了都是十年前大家都在玩的东西,真正能够把它应用在基础模型上,在这么大的规模上做训练,还是有很多工程上的困难,目前逐渐在解决。

现在很多对人来说非常简单,一个动作、两个动作很容易的事情,但确实是以前的机器人完全做不了的事情。在这样一批场景上至少能够完全实现全自主,而且这个事情不会特别远,大概就是2026年。

主持人-陈昱:我们期待2026年具身智能商业上的爆发。大模型领域大家讨论AGI很多,但现在物理AI的AGI时刻还很少被提及,大家认为物理AI的AGI时刻意味着什么?现有的技术路线真的能够走到那一步吗?

周光:我觉得对具身智能来说移动的能力是看得比较清楚的。这一轮自动驾驶技术出来后,移动能力的基础模型会比较快收敛,目前有一百公里自动驾驶测试的监管,如果不是在行车这样的特殊场景,换机器人场景,是能实现商业化的。

王潜:我们估计是3-5年的周期内,有一个Scaling law的的估计,以及按照这个路线能做到什么水平,基本就是这个时间线,不会特别远,不会是8-10年。

周光:是的,自动驾驶与具身智能不会需要这么久。

王潜:这个事说到最后,无论如何有一点信仰的成分,你相不相信Scaling law的成分,或者是相不相信Scaling law在机器人、车上的存在。

周光:还有一点,我觉得芯片也是一个问题,今天为什么各家都在做第一代VLA,包括FSD V14也是类似的架构,算力是一个无法忽略的问题。从200多Tops到1000Tops,我认为还是不够的,1B左右的参数模型依然很难做一些复杂的工作。

主持人-陈昱:刚刚王潜总也提到,已经有人脑这种Intelligent system作为模板,但人的大脑功耗只有大约20瓦,没有这么高的算力,我们也不可能无穷的堆叠算力。可能7B做驾驶是足够。

周光:我觉得在终端设备上完成常规的工作是足够了的。

王潜:参数上的规模,少部分是有关于任务的难度,驾驶真的比IMO简单吗?并不觉得,我很确定的说manipulate不比IMO简单。

周光:但是生物是进化了10亿年才达到现在的程度。

王潜:核心影响参数量的还是knowledge的总量,语言模型为什么那么大,要记住一大堆,从整个维基百科到互联网所有的knowledge,所以信息编码这么多,它肯定还是需要那么多的参数量,这个是逃不掉的。不管是开车还是具身操作,它用不了这么多的knowledge,大量的信息都是common sense,都相对来说压缩密度比较大,所以我肯定还是同意周光说的,肯定会比语言模型小很多。

周光:不管是开车还是做一个APP,所需要的实时Token都是多的,要想描述整个行为,需要一定的算力,这不只是一个仅靠内存的问题。

主持人-陈昱:和大语言模型不太一样,具身本身是一个实时系统,大语言模型解决问题的时候一次不行就5个path、10个path,甚至可以花一个小时思考,但具身智能需要做即时的反馈。感谢两位技术硬核又脑洞大开的分享,也希望在场的各位能从他们的实践中感受到物理 AI 的真实挑战与新的可能性。谢谢大家!

本文来源投资界,原文:https://news.pedaily.cn/202512/558443.shtml

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。