极佳科技朱政：为机器人构建“世界观”_南方+

南方周末研究员丁莉

责任编辑丨黄金萍

2025年年末，人工智能（AI）正经历一场范式转变。

Meta首席科学家、图灵奖得主杨立昆（Yann LeCun）离职创业，“AI教母”李飞飞发表万字长文From Words to Worlds: Spatial Intelligence is AI’s Next Frontier，直击大语言模型在理解物理世界方面的孱弱，其创业公司World Labs发布首个能生成“3D可导航世界”的AI模型Marble。他们都转向了——世界模型。

在中国，朱政和他参与创立的极佳科技从2023年年中已经在All in这件事了。

到底什么是世界模型？

在朱政看来，其本质是一种预测能力，它能让AI知道，某一动作将给环境带来怎样的改变，这也更接近人类大脑的机制。他举了一个有趣的例子：职业棒球运动员能在零点零几秒内接住高速飞过来的球，但如此短暂的时间其实不足以让视觉信号传递到大脑皮层，这一动作的完成，得益于人类大脑海马体有一个负责构建世界模型的区域，它能洞悉物理规律，对即将发生的事情做出预判。

随着AI从数字世界进入物理世界，这种预测能力日益重要，比如自动驾驶、机器人，都需要世界模型的助力，也在推着世界模型的研究往前走。

这也一直是朱政的兴趣所在。早在于中国科学院自动化研究所与清华大学从事科研和学习时，他就在“教”汽车和机器人理解世界，他开发的BEVDet算法被多家车企采用，在KITTI、nuScenes等榜单排名第一。他本人也已经连续第四年入选斯坦福大学的“全球前2%顶尖科学家榜单”。

但创业是一个新课题，他必须走出舒适圈，在研究的前瞻性、工程的可行性、商业化的残酷性之间寻找巧妙的平衡。

所幸，极佳科技在两年多时间里取得不错的进展，朱政主导开发的自动驾驶世界模型DriveDreamer已进入中国20家主流车企和自动驾驶公司的方案；借助世界模型训练的GigaBrain-0也让机器人任务成功率提升了50%。就在最近三个月，极佳科技紧锣密鼓地完成了4笔A轮系列融资，累计募资5亿元，投资人包括达晨财智、华控基金、华为哈勃等。

▲2024年11月28日，北京极佳视界科技有限公司联合创始人、首席科学家朱政在南方周末科创大会上演讲，并获评南方周末2025年度科创力人物。

硬科技创业，

研究、工程、商业化缺一不可

南方周末：你是CV（计算机视觉）出身，随后转向世界模型，从以“感知-分割-识别”为核心的CV到以“预测-生成”为核心的世界模型，有哪些挑战？

朱政：在大模型爆火之前，CV领域就有很多生成工作，包括GAN和Diffusion，这也是现在世界模型的核心。我也做很多相关工作，比如用扩散模型解决单目深度估计的感知问题、数字人生成等等，两者总体是一脉相承的。

当然，世界模型是一个全新挑战，它融合了大模型、视频生成、自动驾驶和具身智能等领域的知识，尤其是从判别式AI到生成式AI的范式转变，需要不断学习新技能。

南方周末：你什么时候开始关注世界模型这条路线的？

朱政：“世界模型”这个概念其实很早就出现了，它至少可以追溯到2018年的一篇论文World Models（注：2018年12月，在加拿大蒙特利尔召开的第31届神经信息处理系统大会[NeurIPS 2018]上， David Ha和Jürgen Schmidhuber发表论文World Models，提出了一种生成式神经网络模型，可以通过无监督方式快速训练，甚至可以让智能体完全在自身实际模型生成的梦境中训练，并将该策略迁移到真实环境），之后Google的研究者进行了一系列探索。

2021年到2022年，我们在自动驾驶领域做了很多有影响力的BEV和OCC工作，开始思考下一代数据应该是什么样子，世界模型当时也开始展现出一些商业化爆发的迹象。另外，当时我们已经意识到模仿学习的局限性和强化学习的潜力，以及生成模型的威力，所以转向世界模型是一个很自然而然的选择。

南方周末：2021年是你在清华大学做研究的最后一年？

朱政：是的，也是创业的前两年。

南方周末：在2023年跟黄冠一起创立极佳科技是怎样的契机？

朱政：他是我师兄，我们出自同一个实验室，认识十多年了。此前我一直在学术界，积累了很多科研成果，也一直期待能在工业界落地；而师兄进入产业界比较早，先后供职微软、三星、地平线，产业经验更充足。

2022年下半年，Stable Diffusion和ChatGPT先后发布，带给我们很大的震撼，科研范式转变带来了新一轮的创业风口。2023年初我们一拍即合，成立了极佳科技。

物理智能一直都是我的兴趣点。在读博的时候，我做的工作就是视觉目标跟踪在机器人系统上的应用，不过那个时代的机器人主要靠预设规则。大模型兴起后，机器人行业已经被完全改变了，特别是VLA（视觉语言动作模型）的出现，第一次让机器人有了执行通用操作任务的可能。

南方周末：物理智能是个大课题，你们当时为什么选择世界模型这个切入口？

朱政：创业之初，我们拜访了很多自动驾驶公司，发现了一个学术界一直没注意到的痛点——目前路测数据中99%以上都是晴天道路车辆直行的数据，缺乏阴雨天、雾天、雪天以及行人鬼探头等corner case数据，而世界模型可以生成这些数据。

以往大家都认为，自动驾驶公司积累了上亿公里的路测数据，不可能缺数据，但其实corner case数据会被淹没在非常海量的数据中。如果继续采用模仿学习或监督学习，只能让自动驾驶系统达到人类司机的平均水平。只有强化学习才能让系统超越人类水平，比如碰撞率、接管率等达到某个工业红线，进而才能实现商业化。因此，工业界非常关注强化学习。

南方周末：从科学家到企业家，给你带来了哪些不一样的感受？

朱政：对硬科技创业而言，研究、工程、商业化三者联系非常紧密，缺一不可。

在创业之前，我其实已经做过世界上最大规模的人脸识别数据集和训练系统，也深度参与了自动驾驶BEV方案的原型设计和量产，分别创造了亿元以上的落地收入。

不过，学校环境里项目验收比较宽松，容错率更高。而创业公司节奏很快，更加目标导向，一个项目从开始就要考虑商业闭环。

两年，接入近20家车企和智驾方案商

南方周末：世界模型广受关注至少是在2024年下半年了，极佳科技在2023年跨进这一领域的时候，顺利吗？

朱政：中国产业界是很乐意尝试新事物的，世界模型提供的数据可以大大改善数据分布，帮助训练更鲁棒的VLA。

我记得我们的第一个客户长安汽车，就是在公司成立不久后谈下的。到2024年，也就是成立第二年，国内近20家主流车企和智驾方案商都成了我们的客户，包括理想、小鹏、比亚迪、小米等等。

南方周末：在具身智能领域，世界模型是如何生成数据并用于训练的？

朱政：我们先训练世界模型的基座模型，用互联网视频做预训练，并采用大量新数据做后训练。训练完成后，我们会采集一部分真机数据，交给世界模型做表观、视角、行为等的泛化。这些新数据会和原有数据混合在一起，用于训练具身模型。

南方周末：世界模型，会动摇具身智能的“数据金字塔”吗？

朱政：我觉得它不会动摇金字塔的结构，但会优化数据的使用。

传统基于计算机图形引擎产生的数据可以称为仿真1.0，这类数据最大的问题在于存在巨大的Sim2Real鸿沟。在这种情况下，训练只能更多依赖成本高昂的真机数据，此前一家公司训练一个VLA模型至少需要采集1万小时的数据，成本上亿元。

世界模型产生的数据可以被归类为仿真数据，我们一般称之为仿真2.0，它更接近真实世界，还可以大大降低训练成本。我们已经在VLA训练中采用了10%的真机遥操数据和90%的世界模型数据，取得了很好的效果；我们甚至做过一些更极端的实验，让世界模型和真机数据比例达到100:1，模型仍然具备较强的通用性和泛化性。

南方周末：如果说世界模型的第一阶段是数据生成器，接下来还有几个阶段？

朱政：总共分为三个阶段，在数据生成之后，第二阶段是提供闭环仿真训练器。

具身智能模型也存在Scaling Law的瓶颈，在平均任务成功率达到90%左右后，模型性能就饱和了，数据增长并不会带来性能的提升。剩余10%的成功率可能要靠强化学习来解决。而真机强化学习效率低、损耗大，所以未来要借助世界模型作为闭环仿真模拟器。

最后一个阶段，世界模型会成长为VLA的下一代。这里可能会有两条路径，一种是VLA会吸收世界模型的思想和能力，另一种是VLA学会同步预测未来状态和奖励，向世界模型进化。

南方周末：要进入下一阶段，挑战是什么？

朱政：第二阶段会要求更多的空间探索，对世界模型的建模能力、拟合物理规律的能力等都提出了更高要求。

当然，对未来的预测能力也是世界模型的本质。接下来，在训练世界模型时需要对数据分布做更好的设计，比如新场景、失败轨迹等数据。

世界模型本质是

掌握物理规律、预测未来

南方周末：今年世界模型爆火，硅谷也有很多新进展，比如李飞飞的Marble、谷歌的Genie 3、LeCun的JEPA……极佳科技要做的世界模型是哪种？

朱政：从应用来看，前两个更偏向影视游戏，注重视觉效果和创意性，以李飞飞的Marble为例，尽管可以从静态场景中生成3DGS和网格，但对机器人训练还是不够，因为机器人需要动态交互环境；LeCun的JEPA基础研究性质居多。

我们不太一样，主要关注自动驾驶和具身智能场景，对真实性、可控性、物理规律的遵循程度更为看重。

南方周末：世界模型究竟是如何“学会”预测未来并掌握物理规律的？

朱政：主要有两种方式，一种是隐式建模，比较典型的是LeCun的JEPA；一种是显式建模，比如视频生成范式，从一张图预测出未来状态的变化。

打个比方，人类开车时，大脑会实时想象油门加速后会冲到什么位置、方向盘打左会怎么样，这就是显式的预测；但也有时候没有做想象，而是凭直觉判断，这就类似隐式的预测。

南方周末：你们采取的是什么方式？

朱政：我们的Video World Model通过大量2D视频进行隐式学习，同时也在构建3D World Model，通过将3DGS与显式物理结构（比如mesh、Material Point或粒子系统）绑定，实现对刚体、柔体的物理可信模拟。

换句话说，前者是让模型“观看”大量视频，自然而然就知道玻璃杯能被摔碎、衣服可以折叠，后者是直接“告诉”它物理规则和定律。

两种方式各有利弊，Video World Model训练数据丰富、上限更高，但在物理规律的精确建模方面还不足；而3D World Model的各类绑定仍依赖逐场景优化，非常耗费计算量，不能完全自动化。

所以，在自动驾驶这样数据充足、标注丰富的场景，Video World Model就已经足够；而在具身智能交互场景，特别是涉及柔体、流体时，我们更倾向于采用3D World Model。

南方周末：你们首个基于世界模型训练的VLA模型GigaBrain-0表现如何？

朱政：从任务完成度和成功率等定量指标来看，世界模型大幅提高了VLA在各方面的泛化性，在Zero-Shot实验中，平均任务成功率从大约30%提升到了80%。

南方周末：2025年你们的融资势头也很猛，目前研发最“烧钱”的是哪些环节？

朱政：主要是世界模型的预训练和后训练、VLA的预训练和后训练，以及本体开发。

南方周末：整个具身智能都在快速迭代，每次迭代都意味着一轮洗牌，世界模型也有可能并非通往通用智能的必由之路，你会不会有这样的焦虑？

朱政：我们还是很坚信通用物理智能会收敛到以世界模型为核心，它不仅能解决数据量问题，还能解决数据的泛化性问题，所以我们不会焦虑。

2027年之前，

商业化主要靠to B场景驱动

南方周末：不久前，极佳科技开源了GigaDatasets、GigaModels 和 GigaTrain三大基础设施，这是否可以理解为你们希望定位自身为行业平台？

朱政：我们目前只是把这三个框架开放出来，希望各家机器人公司可以在上面构建符合自身需求的世界模型。至于说“平台”这样宏大的事情，可能暂时还没有收敛到这一步。具身智能有其特殊性，目前还处在科研、共创的阶段。

南方周末：目前你们在产品落地方面有怎样的规划？

朱政：我们认为通用物理智能包含三件事，一是智能，二是场景，三是本体。

这三件事是有顺序的，一定要先智能，再场景，最后做本体。在智能没有达到一定阈值的情况下去谈论场景或者本体，是无法实现商业闭环的。所以我们一方面要做适配于物理AI的原生模型，另一方面要做适配于具身大脑的原生本体。

南方周末：在智能方面，你们会打造“通用大脑”为其他本体公司提供支撑吗？

朱政：现阶段落地还是软硬一体的，一款模型适配一款本体，因为模型开发涉及的数据采集等等都无法脱离本体的构型限制。

但“通用大脑”“一脑多形”可能是大趋势。未来，等模型水平达到某一阈值，具身智能产业链会各司其职，本体公司只管做好本体，把成本降下来，搭载模型落地。

南方周末：这个时间点会在什么时候出现？

朱政：应该会很快，未来2-3年内。

南方周末：极佳科技已经发布了自己的机器人本体，商业化进展如何？

朱政：我们认为具身智能商业化分两个阶段，未来两年到2027年之前，商业化主要靠to B场景驱动；2027年之后，则主要靠To C场景驱动。

目前有二三十家客户已经购买并使用了我们的本体及世界模型套件，我们已经落地了很多to B场景，比如在全国五六家人形机器人创新中心及各地高校，进行数据采集、科研等工作。

关于更多

2021 年，南方周末成立“南方周末科创力研究中心”，搭建中国企业科创数据库，围绕研发投入、研发产出、企业发展三个维度，从企业年报披露的研发投入、公司发展情况，全球及中国的专利申请、授权、被引用情况，参与行业和国家标准制定情况，获得全国、省部级、社会力量科技奖项等情况，综合近30个指标，编制了中国企业科创力研究指标体系，来寻找各行各业中最具科创力的中国企业，更以此追踪在各个行业、地域，中国企业科创的来源和去向，以及未来可能的科创产出和科创突破。

2025年度纳入中国企业科创力数据库的企业为截至2024年12月31日的全部A股上市企业、运营主体/控股股东在中国的港股及美股上市企业、1家台交所企业，以及1家未上市但可提供经第三方审计年报的企业——合计超过7000家。《2025中国企业科创力研究报告》等相关研究成果，2025年11月28日在2025科创大会上正式发布。

▲ 扫码获取《2025中国企业科创力研究报告》

阅读原文进入“科创大会”专题