极佳科技朱政:为机器人构建“世界观”

南方人物周刊
+订阅

南方周末研究员 丁莉

责任编辑丨黄金萍

2025年年末,人工智能(AI)正经历一场范式转变。

Meta首席科学家、图灵奖得主杨立昆(Yann LeCun)离职创业,“AI教母”李飞飞发表万字长文From Words to Worlds: Spatial Intelligence is AI’s Next Frontier,直击大语言模型在理解物理世界方面的孱弱,其创业公司World Labs发布首个能生成“3D可导航世界”的AI模型Marble。他们都转向了——世界模型。

在中国,朱政和他参与创立的极佳科技从2023年年中已经在All in这件事了。

到底什么是世界模型?

在朱政看来,其本质是一种预测能力,它能让AI知道,某一动作将给环境带来怎样的改变,这也更接近人类大脑的机制。他举了一个有趣的例子:职业棒球运动员能在零点零几秒内接住高速飞过来的球,但如此短暂的时间其实不足以让视觉信号传递到大脑皮层,这一动作的完成,得益于人类大脑海马体有一个负责构建世界模型的区域,它能洞悉物理规律,对即将发生的事情做出预判。

随着AI从数字世界进入物理世界,这种预测能力日益重要,比如自动驾驶、机器人,都需要世界模型的助力,也在推着世界模型的研究往前走。

这也一直是朱政的兴趣所在。早在于中国科学院自动化研究所与清华大学从事科研和学习时,他就在“教”汽车和机器人理解世界,他开发的BEVDet算法被多家车企采用,在KITTI、nuScenes等榜单排名第一。他本人也已经连续第四年入选斯坦福大学的“全球前2%顶尖科学家榜单”。

但创业是一个新课题,他必须走出舒适圈,在研究的前瞻性、工程的可行性、商业化的残酷性之间寻找巧妙的平衡。

所幸,极佳科技在两年多时间里取得不错的进展,朱政主导开发的自动驾驶世界模型DriveDreamer已进入中国20家主流车企和自动驾驶公司的方案;借助世界模型训练的GigaBrain-0也让机器人任务成功率提升了50%。就在最近三个月,极佳科技紧锣密鼓地完成了4笔A轮系列融资,累计募资5亿元,投资人包括达晨财智、华控基金、华为哈勃等。

▲2024年11月28日,北京极佳视界科技有限公司联合创始人、首席科学家朱政在南方周末科创大会上演讲,并获评南方周末2025年度科创力人物。

硬科技创业,

研究、工程、商业化缺一不可

南方周末:你是CV(计算机视觉)出身,随后转向世界模型,从以“感知-分割-识别”为核心的CV到以“预测-生成”为核心的世界模型,有哪些挑战?

朱政:在大模型爆火之前,CV领域就有很多生成工作,包括GAN和Diffusion,这也是现在世界模型的核心。我也做很多相关工作,比如用扩散模型解决单目深度估计的感知问题、数字人生成等等,两者总体是一脉相承的。

当然,世界模型是一个全新挑战,它融合了大模型、视频生成、自动驾驶和具身智能等领域的知识,尤其是从判别式AI到生成式AI的范式转变,需要不断学习新技能。

南方周末:你什么时候开始关注世界模型这条路线的?

朱政:“世界模型”这个概念其实很早就出现了,它至少可以追溯到2018年的一篇论文World Models(注:2018年12月,在加拿大蒙特利尔召开的第31届神经信息处理系统大会[NeurIPS 2018]上, David Ha和Jürgen Schmidhuber发表论文World Models,提出了一种生成式神经网络模型,可以通过无监督方式快速训练,甚至可以让智能体完全在自身实际模型生成的梦境中训练,并将该策略迁移到真实环境 ),之后Google的研究者进行了一系列探索。

2021年到2022年,我们在自动驾驶领域做了很多有影响力的BEV和OCC工作,开始思考下一代数据应该是什么样子,世界模型当时也开始展现出一些商业化爆发的迹象。另外,当时我们已经意识到模仿学习的局限性和强化学习的潜力,以及生成模型的威力,所以转向世界模型是一个很自然而然的选择。

南方周末:2021年是你在清华大学做研究的最后一年?

朱政:是的,也是创业的前两年。

南方周末:在2023年跟黄冠一起创立极佳科技是怎样的契机?

朱政:他是我师兄,我们出自同一个实验室,认识十多年了。此前我一直在学术界,积累了很多科研成果,也一直期待能在工业界落地;而师兄进入产业界比较早,先后供职微软、三星、地平线,产业经验更充足。

2022年下半年,Stable Diffusion和ChatGPT先后发布,带给我们很大的震撼,科研范式转变带来了新一轮的创业风口。2023年初我们一拍即合,成立了极佳科技。

物理智能一直都是我的兴趣点。在读博的时候,我做的工作就是视觉目标跟踪在机器人系统上的应用,不过那个时代的机器人主要靠预设规则。大模型兴起后,机器人行业已经被完全改变了,特别是VLA(视觉语言动作模型)的出现,第一次让机器人有了执行通用操作任务的可能。

南方周末:物理智能是个大课题,你们当时为什么选择世界模型这个切入口?

朱政:创业之初,我们拜访了很多自动驾驶公司,发现了一个学术界一直没注意到的痛点——目前路测数据中99%以上都是晴天道路车辆直行的数据,缺乏阴雨天、雾天、雪天以及行人鬼探头等corner case数据,而世界模型可以生成这些数据。

以往大家都认为,自动驾驶公司积累了上亿公里的路测数据,不可能缺数据,但其实corner case数据会被淹没在非常海量的数据中。如果继续采用模仿学习或监督学习,只能让自动驾驶系统达到人类司机的平均水平。只有强化学习才能让系统超越人类水平,比如碰撞率、接管率等达到某个工业红线,进而才能实现商业化。因此,工业界非常关注强化学习。

南方周末:从科学家到企业家,给你带来了哪些不一样的感受?

朱政:对硬科技创业而言,研究、工程、商业化三者联系非常紧密,缺一不可。

在创业之前,我其实已经做过世界上最大规模的人脸识别数据集和训练系统,也深度参与了自动驾驶BEV方案的原型设计和量产,分别创造了亿元以上的落地收入。

不过,学校环境里项目验收比较宽松,容错率更高。而创业公司节奏很快,更加目标导向,一个项目从开始就要考虑商业闭环。

两年,接入近20家车企和智驾方案商

南方周末:世界模型广受关注至少是在2024年下半年了,极佳科技在2023年跨进这一领域的时候,顺利吗?

朱政:中国产业界是很乐意尝试新事物的,世界模型提供的数据可以大大改善数据分布,帮助训练更鲁棒的VLA。

我记得我们的第一个客户长安汽车,就是在公司成立不久后谈下的。到2024年,也就是成立第二年,国内近20家主流车企和智驾方案商都成了我们的客户,包括理想、小鹏、比亚迪、小米等等。

南方周末:在具身智能领域,世界模型是如何生成数据并用于训练的?

朱政:我们先训练世界模型的基座模型,用互联网视频做预训练,并采用大量新数据做后训练。训练完成后,我们会采集一部分真机数据,交给世界模型做表观、视角、行为等的泛化。这些新数据会和原有数据混合在一起,用于训练具身模型。

南方周末:世界模型,会动摇具身智能的“数据金字塔”吗?

朱政:我觉得它不会动摇金字塔的结构,但会优化数据的使用。

传统基于计算机图形引擎产生的数据可以称为仿真1.0,这类数据最大的问题在于存在巨大的Sim2Real鸿沟。在这种情况下,训练只能更多依赖成本高昂的真机数据,此前一家公司训练一个VLA模型至少需要采集1万小时的数据,成本上亿元。

世界模型产生的数据可以被归类为仿真数据,我们一般称之为仿真2.0,它更接近真实世界,还可以大大降低训练成本。我们已经在VLA训练中采用了10%的真机遥操数据和90%的世界模型数据,取得了很好的效果;我们甚至做过一些更极端的实验,让世界模型和真机数据比例达到100:1,模型仍然具备较强的通用性和泛化性。

南方周末:如果说世界模型的第一阶段是数据生成器,接下来还有几个阶段?

朱政:总共分为三个阶段,在数据生成之后,第二阶段是提供闭环仿真训练器。

具身智能模型也存在Scaling Law的瓶颈,在平均任务成功率达到90%左右后,模型性能就饱和了,数据增长并不会带来性能的提升。剩余10%的成功率可能要靠强化学习来解决。而真机强化学习效率低、损耗大,所以未来要借助世界模型作为闭环仿真模拟器。

最后一个阶段,世界模型会成长为VLA的下一代。这里可能会有两条路径,一种是VLA会吸收世界模型的思想和能力,另一种是VLA学会同步预测未来状态和奖励,向世界模型进化。

南方周末:要进入下一阶段,挑战是什么?

朱政:第二阶段会要求更多的空间探索,对世界模型的建模能力、拟合物理规律的能力等都提出了更高要求。

当然,对未来的预测能力也是世界模型的本质。接下来,在训练世界模型时需要对数据分布做更好的设计,比如新场景、失败轨迹等数据。

世界模型本质是

掌握物理规律、预测未来

南方周末:今年世界模型爆火,硅谷也有很多新进展,比如李飞飞的Marble、谷歌的Genie 3、LeCun的JEPA……极佳科技要做的世界模型是哪种?

朱政:从应用来看,前两个更偏向影视游戏,注重视觉效果和创意性,以李飞飞的Marble为例,尽管可以从静态场景中生成3DGS和网格,但对机器人训练还是不够,因为机器人需要动态交互环境;LeCun的JEPA基础研究性质居多。

我们不太一样,主要关注自动驾驶和具身智能场景,对真实性、可控性、物理规律的遵循程度更为看重。

南方周末:世界模型究竟是如何“学会”预测未来并掌握物理规律的?

朱政:主要有两种方式,一种是隐式建模,比较典型的是LeCun的JEPA;一种是显式建模,比如视频生成范式,从一张图预测出未来状态的变化。

打个比方,人类开车时,大脑会实时想象油门加速后会冲到什么位置、方向盘打左会怎么样,这就是显式的预测;但也有时候没有做想象,而是凭直觉判断,这就类似隐式的预测。

南方周末:你们采取的是什么方式?

朱政:我们的Video World Model通过大量2D视频进行隐式学习,同时也在构建3D World Model,通过将3DGS与显式物理结构(比如mesh、Material Point或粒子系统)绑定,实现对刚体、柔体的物理可信模拟。

换句话说,前者是让模型“观看”大量视频,自然而然就知道玻璃杯能被摔碎、衣服可以折叠,后者是直接“告诉”它物理规则和定律。

两种方式各有利弊,Video World Model训练数据丰富、上限更高,但在物理规律的精确建模方面还不足;而3D World Model的各类绑定仍依赖逐场景优化,非常耗费计算量,不能完全自动化。

所以,在自动驾驶这样数据充足、标注丰富的场景,Video World Model就已经足够;而在具身智能交互场景,特别是涉及柔体、流体时,我们更倾向于采用3D World Model。

南方周末:你们首个基于世界模型训练的VLA模型GigaBrain-0表现如何?

朱政:从任务完成度和成功率等定量指标来看,世界模型大幅提高了VLA在各方面的泛化性,在Zero-Shot实验中,平均任务成功率从大约30%提升到了80%。

南方周末:2025年你们的融资势头也很猛,目前研发最“烧钱”的是哪些环节?

朱政:主要是世界模型的预训练和后训练、VLA的预训练和后训练,以及本体开发。

南方周末:整个具身智能都在快速迭代,每次迭代都意味着一轮洗牌,世界模型也有可能并非通往通用智能的必由之路,你会不会有这样的焦虑?

朱政:我们还是很坚信通用物理智能会收敛到以世界模型为核心,它不仅能解决数据量问题,还能解决数据的泛化性问题,所以我们不会焦虑。

2027年之前,

商业化主要靠to B场景驱动

南方周末:不久前,极佳科技开源了GigaDatasets、GigaModels 和 GigaTrain三大基础设施,这是否可以理解为你们希望定位自身为行业平台?

朱政:我们目前只是把这三个框架开放出来,希望各家机器人公司可以在上面构建符合自身需求的世界模型。至于说“平台”这样宏大的事情,可能暂时还没有收敛到这一步。具身智能有其特殊性,目前还处在科研、共创的阶段。

南方周末:目前你们在产品落地方面有怎样的规划?

朱政:我们认为通用物理智能包含三件事,一是智能,二是场景,三是本体。

这三件事是有顺序的,一定要先智能,再场景,最后做本体。在智能没有达到一定阈值的情况下去谈论场景或者本体,是无法实现商业闭环的。所以我们一方面要做适配于物理AI的原生模型,另一方面要做适配于具身大脑的原生本体。

南方周末:在智能方面,你们会打造“通用大脑”为其他本体公司提供支撑吗?

朱政:现阶段落地还是软硬一体的,一款模型适配一款本体,因为模型开发涉及的数据采集等等都无法脱离本体的构型限制。

但“通用大脑”“一脑多形”可能是大趋势。未来,等模型水平达到某一阈值,具身智能产业链会各司其职,本体公司只管做好本体,把成本降下来,搭载模型落地。

南方周末:这个时间点会在什么时候出现?

朱政:应该会很快,未来2-3年内。

南方周末:极佳科技已经发布了自己的机器人本体,商业化进展如何?

朱政:我们认为具身智能商业化分两个阶段,未来两年到2027年之前,商业化主要靠to B场景驱动;2027年之后,则主要靠To C场景驱动。

目前有二三十家客户已经购买并使用了我们的本体及世界模型套件,我们已经落地了很多to B场景,比如在全国五六家人形机器人创新中心及各地高校,进行数据采集、科研等工作。

关于更多

2021 年,南方周末成立“南方周末科创力研究中心”,搭建中国企业科创数据库,围绕研发投入、研发产出、企业发展三个维度,从企业年报披露的研发投入、公司发展情况,全球及中国的专利申请、授权、被引用情况,参与行业和国家标准制定情况,获得全国、省部级、社会力量科技奖项等情况,综合近30个指标,编制了中国企业科创力研究指标体系,来寻找各行各业中最具科创力的中国企业,更以此追踪在各个行业、地域,中国企业科创的来源和去向,以及未来可能的科创产出和科创突破。

2025年度纳入中国企业科创力数据库的企业为截至2024年12月31日的全部A股上市企业、运营主体/控股股东在中国的港股及美股上市企业、1家台交所企业,以及1家未上市但可提供经第三方审计年报的企业——合计超过7000家。《2025中国企业科创力研究报告》等相关研究成果,2025年11月28日在2025科创大会上正式发布。

▲ 扫码获取 《2025中国企业科创力研究报告》

阅读原文进入“科创大会”专题

版权声明:未经许可禁止以任何形式转载
+1
您已点过

订阅后可查看全文(剩余80%)

更多精彩内容请进入频道查看

还没看够?打开南方+看看吧
立即打开