文|周鑫雨
编辑|张雨忻
梳理近半年的成果,大晓机器人董事长、商汤科技联合创始人王晓刚,滔滔不绝聊了10多分钟。
成立于2025年7月,大晓机器人(ACE ROBOTICS)是具身领域姗姗来迟的入局者。但一年来,这位新玩家成了赛道的“卷王”:
在模型侧,大晓新发布的具身大脑——世界模型“开悟(Kairos)3.0”,在4项全球具身智能基准测试中取得SOTA;开源的Kairos 3.0-4B,则率先实现在端侧直接驱动具身智能本体的能力。
△Kairos3.0在4个世界模型生成预测具身智能榜单中取得SOTA。图源:大晓机器人
在数据侧,大晓提出的“以人为中心”环境式采集方案,通过大规模采集人类与真实环境的交互过程,将世界模型训练数据量扩展至100万小时,达到传统真机(人遥控机器人)采集模式的10倍。
还有落地——半年前,大晓的具身大脑模组A1,落地的主要场景,还是从事道路巡检的机器狗;如今,这颗“大脑”已经随着形态各异的机器人,进入了酒店、无人零售店、无人物流仓等多个场景。
△大晓在上海西岸落地的机器狗巡逻方案。图源:大晓机器人
2026年6月15日,大晓机器人官宣完成天使+轮融资——距离上一轮官宣,仅隔了4个月。
这一轮投资方包括达晨财智、深创投、上海科创基金、沐曦股份、盛宇投资、复星锐正、华控基金、临港新片区基金、豫资涨泉等基金,老股东商汤国香资本持续增资,告捷资本担任长期财务顾问。
至此,2026年以来,大晓的累计融资金额已经达数亿美元。据《智能涌现》了解,大晓也成了具身领域最快成为独角兽的企业之一。
在单轮融资金额动辄数亿元的具身赛道,不仅是技术竞速,入局玩家的场景圈地之战已然打响:
孵化自清华的“千诀科技”,瞄准的是酒店保洁、商用服务、精密室内作业等实景项目;前华为车BU首席科学家陈亦伦创立的它石智航,聚焦的是线束装配场景。
“具身领域的产业链非常长,很难靠一家企业做完所有的事。”王晓刚告诉《智能涌现》,“所以在其中怎么撬动更多资源,在整个具身产业链中把握生态位的主导权,是非常关键的。”
然而,在落地过程中,王晓刚感受到的是:硬件、数据、模型,三者的结合还不够。
在海外,Figure、特斯拉等头部具身企业,都在内部整合硬件研发、数据采集和模型训练,以此提高协同迭代的效率。
在国内,这套闭环尚未形成。王晓刚坦言,受制于技术成熟度和资源投入压力,不少本体公司对场景落地持谨慎态度;上游数据采集标准尚未统一,可直接用于具身模型训练的高质量数据供给不足。与此同时,硬件迭代的周期远长于模型,导致设计很难协同。
找到可规模化的落地场景,以及可深度合作的本体厂商,是当下大晓构建“硬件、数据、模型”闭环的方法论。
在王晓刚的规划中,大晓会先深入广阔的道路巡检和无人物流仓场景,再扩展到更为复杂、安全性要求更高的C端家庭场景。
这样的好处在于,大晓能够先从 B 端场景中收集足够多的场景数据,提升世界模型能力的同时,还可以快速形成可以规模化的解决方案,帮助本体厂商进入场景。
近期,王晓刚和《智能涌现》聊了聊大晓的进展,以及他对具身行业的观察。以下对话略经编辑:
找到可复制的场景
智能涌现:今年具身和世界模型是一级市场最火的赛道。相较于大晓成立之初,这一轮的融资难度有变化吗?
王晓刚:这个时间点融资的好处是,市场有热度、有关注度。
但相对的,企业太多,有时候投资人不清楚每家公司的价值点在哪里。所以我们需要付出更多的解释成本,帮投资人梳理清楚我们的发展路径、技术思路。
智能涌现:大晓是2025年7月成立的。当时你会觉得大晓入局具身赛道晚了吗?
王晓刚:我们选择这个时间点入局,是因为看到了具身大脑研究范式的变化:原来的主流的VLA(视觉-语言-行动)范式存在局限性,缺少对物理世界的结构化理解。世界模型恰好可以解决这个问题。所以在当时入局,我们有可能实现弯道超车。
而且在技术还不成熟的阶段,此前大家在探索技术范式,尤其是具身大脑的过程中,浪费了很多数据、模型训练、人力等资源。所以我们在去年入局可以少走弯路,反而有后发优势。
智能涌现:相对而言,晚入局竞争会更激烈。
王晓刚:具身领域的产业链非常长,很难靠一家企业做完所有的事。所以在其中怎么撬动更多资源,在整个具身产业链中把握生态位的主导权,是非常关键的。
去年大晓成立之前,我们和很多具身企业进行了访谈。我发现,当时具身企业普遍对进入场景,抱有谨慎的态度。
但场景在具身的发展中起到了关键作用。具身领域是按场景划分的,只要在一个场景中进行了闭环的验证,就很容易进行全球的规模化的复制。在规模化的复制过程中,就能让数据采集的体量、硬件的规模提升几个数量级。
智能涌现:为什么具身公司不太愿意进入场景?
王晓刚:一方面,技术成熟度还不高。另一方面,解决场景中的问题,涉及到大量的数据采集、研发等资源投入。加之目前很多新兴的具身公司,本身对行业和场景的理解都不够深刻。
所以很多公司的态度是:先融钱,等待一个行业成熟的时机点,再去跟上。但等时机点出现的时候,先机已经被别人占走了。
智能涌现:在技术不成熟的阶段,你们是怎么和场景中的头部客户谈的?
王晓刚:找到技术的边界很重要。我们要根据技术、软硬件的成熟度,把现实的边界找到。
如果进入To C场景,比如L4阶段的自动驾驶,我的技术就不能有边界。但是进入To B场景,加上各种可控条件,技术是可以落地的。
我们还得判断:哪些场景是可以直接被解决的,哪些场景通过一些手段可以解决。此外,这些场景的解决方案还得具有可复制性。如果你找到的场景不具备可复制性,你做完这个,下一个还得定制化,这其实不是一个很好的选择。
智能涌现:怎么判断一个场景具不具备可复制性?
王晓刚:举个例子,我们优先深入的是零售、仓储这些场景,因为他们的业务体系和需求,全国都是可以复制的。再比如酒店也是一个可复制的场景,全国有很多酒店,我们交付的都是同一套巡检、导航机器人和机器狗。
智能涌现:这些场景的竞争会更激烈吗?
王晓刚:虽然大家都瞄准了这几个场景,但很多企业走得不深。这样的后果就是,你的成本无法控制、无法边际递减。
你可以做个demo炫技,但它不具备规模化的前提条件。
智能涌现:怎样的落地模式才算得上“深入”场景?
王晓刚:首先,你需要有紧密合作的生态伙伴。比如,在无人零售的场景中,我们和商汤生态中的公司善惠机器人合作,给他们提供无人零售解决方案。
善惠首先会提出成本、续航、节排等要求。其次,在具体的复杂场景中,他们会给很多技术的反馈。这些要求和反馈,有助于我们形成数据闭环,在场景中快速迭代。
做完生态合作伙伴的“前期功课”后,我们也能够知道哪些方案是必要的,哪些是可以省却的,或者可以通过其他方案进行弥补。
等方案成熟,我们也能将业务合作拓展到零售相关的其他头部企业,通过规模化把成本降下来。通过这一套打法,目前大晓能够把解决方案的成本降低到行业的1/3。
智能涌现:之前你提到,大晓落地场景的规划是:道路巡检-无人物流-家庭场景。这个落地顺序背后的考量是什么?
王晓刚:一方面,我们考虑的是技术实现的难度。另一方面,我们遵循的还是先To B后To C的策略。因为C端场景规则边界不强,存在很多非结构化的场景。但B端场景是受控的,能够保障安全性。
所以在B端积累更多经验后,我们再走向To C。
△大晓世界模型的家居场景。图源:大晓机器人
世界模型还没有「智能涌现」
智能涌现:创业初期你提出了很多新观点,比如在VLA还是具身主流范式时,选择了做世界模型,再比如提出“以人为中心的数据采集范式”。你怎么判断这套范式是可行的?
王晓刚:大方向上的判断是非常确定的。首先,VLA与世界模型相比,只有后者这样的生成式模型,才具备智能涌现的能力。所以我们做具身智能,第一天就选了世界模型方向。
其次,只有真人的数据,无论是采集的效率和规模,还是拟人化的真实性,才能达到训练世界模型的要求。
但其中很多细节是在实践过程中才逐渐变清晰的。比如做世界模型,一开始我们的主要关注点是生成能力。但实际场景中,世界模型不光要生成数据,还要去控制真机,通过机器人与物理世界进行交互。这对世界模型的物理智能、空间智能提出了更高的要求。
所以我们最近发布了开源空间智能通用模型ACE-Brain-0,以及物理3D生成框架PhysX-Omni,来提高世界模型的空间智能和物理智能。
智能涌现:视频生成模型、VLA等都称自己为“世界模型”。你对世界模型的定义是什么?
王晓刚:简单来说,世界模型得具备三方面的能力:理解、生成、预测。只有同时具备这三个能力,模型才能自我演进、自我纠正、自我进化。
为什么大家都说自己是世界模型?因为业界没有针对世界模型的评价体系。比如,行业缺少对长时序复杂任务执行效果的benchmark。
一些所谓的“世界模型”只是宣传了自己擅长的东西,但其实缺失了另外的能力。像VLA缺乏生成能力,视频生成模型缺乏了对物理和空间的理解能力。
智能涌现:你们内部怎么评测世界模型的能力?
王晓刚:我们正在联合一些学术机构和具身公司,建立一个世界模型benchmark,其中的评测维度包括跨本体的泛化能力、模拟仿真的能力,这些维度最终指向的是衡量模型理解、生成、预测的能力。
智能涌现:大晓的世界模型Kairos最近迭代到了3.0。它的能力类比语言模型处于什么阶段?
王晓刚:还没到GPT3.0。等到GPT3.0的阶段,世界模型就能实现智能涌现,也意味着研究范式有较高程度的确定性。
目前我们还是按照“理解、生成、预测”三个维度来逐步迭代Kairos。最早的时候,Kairos主要用来做视频生成,后面逐渐开始控制真机,相应的,我们也要提升它对空间和物理属性的理解。
智能涌现:在当下世界模型发展的阶段,数据的量、质量、标注,以及后续的评测等环节,哪个对模型能力的影响最大?
王晓刚:眼前世界模型还在0-1的阶段,可供训练的数据本来就很少。所以在这个阶段,数据的量对效果的提升更明显。当训练数据增加了10倍、100倍,我立刻能看到模型能力的提升。
但等到世界模型出现智能涌现,就需要对数据进行精筛、进行精细化的标注。这和大语言模型的发展是类似的。
当下世界模型还没有“智能涌现”,所以先要把数据的量铺上去,再反过来解决质量问题。
智能涌现:要实现“智能涌现”,世界模型需要多少的训练数据?
王晓刚:我们期待的是要达到千万小时的量级。
原来真机采集的数据规模只有10万小时的量级,现在我们用人采集,基本上能达到百万小时。
智能涌现:提升数据采集量级的关键是什么?
王晓刚:还是场景的规模化,所以其中就需要产业方进入。
其实对于产业方而言,数据采集也是他们进入具身行业的切入点。因为他们有场景,如果做数据采集,马上就可以变现,立刻产生价值。接着通过训练模型,再引入机器人,产业方也能提高场景的效率。
模型、数据、硬件、场景的结合是不够的
智能涌现:如今行业对机器人的一种态度是:买来只能当吉祥物,没有实际用处。
王晓刚:除却质量问题,很重要的一点在于具身公司没有针对特定场景进行深度的迭代和打磨。
现在的机器人公司,每年不断发布新的型号,但这些型号不是针对应用场景迭代的,所以原有的问题没有解决,反而会出现新的问题。
问题不收敛,就会造成返修率的增加,机器人工作几百个小时,就会出问题。所以当下机器人的规模化推广面临很大的问题。
智能涌现:让具身公司根据场景迭代的解法是什么?
王晓刚:等场景能够规模化,硬件可以量产,就会倒逼具身公司将资源集中在针对场景的迭代上。
智能涌现:如今行业中还有哪些难题?
王晓刚:首先,今天模型、数据、硬件三者的结合是不够的。
基座模型厂商、世界模型公司,还有做数据的公司,大家都各做各的数据采集方案。但未来本体是靠数据来驱动的,而不是靠真机或者物理模型的规则。
所以这些问题就很关键:怎么从人身上采集数据?采集哪些数据去驱动硬件本体?硬件本体怎么设计才能符合人的行为要求?一旦设计过于复杂,人无法做相应的动作,将来就没有数据可以驱动本体。
美国的Figure、特斯拉,走的是一条高度集成、垂直整合的技术路线。他们把模型、数据、硬件都自己做了,因此内部迭代的效率会更高。今天我们就要找到一种模式,让三者有比较好的结合。
其次,具身和场景的结合,当下面临很多困境。场景其实是中国的优势,不少下游场景都具备可复制性,未来具身落地的速度会很快。
具身想要“打穿”场景,需要很多行业Know-How。但不少场景中的产业方,又不具备具身方面的知识和技术储备。所以我们需要找到新模式,让硬件、大脑和场景三者强强联合。
智能涌现:什么样的“新模式”?
王晓刚:一方面是和行业头部企业形成战略性的合作关系。我们背后的商汤,有几千家客户,涵盖非常多的行业方向。抓住头部客户资源后,我们的数据采集和解决方案就能规模化。
另一方面,我们也走访了很多本体厂商,考察他们的设计思路,和他们形成深度合作,帮助他们进入场景。
智能涌现:你多次提到目前本体厂商进入场景不够。这是不是意味着你们作为上游的模型厂商,无法得到足够的数据回流?
王晓刚:是的。所以我们还是要和本体厂商有充分的交流,去走访、探讨他们的技术细节。
当下在数采方案上,我们和本体厂商还有很多认知差异。
比如我们会让数采团队的成员戴上能传感触觉信息的手套,但是有的本体厂商关于“手”的设计方案不是人手,而是夹爪或者只有三指。这时我们的数采方案就要去兼顾相应的设计。
智能涌现:听上去现阶段你们要迁就本体厂商的方案,但你之前提到要让“模型去定义本体”。相较于“本体定义模型”,它有什么好处?
王晓刚:就像我之前说的,未来本体还是得靠数据去驱动。如果硬件设计得复杂度很高,未来靠什么数据去驱动?
以及,硬件本体的开发周期是很长的,不像模型软件那样可以快速实现。因此硬件需要根据模型的迭代方向去提前布局。谁能在迭代方向上提前思考、提前布局,就能赢得先机。
现阶段最好的合作方式就是本体和模型厂商深度绑定。当本体厂商设计下一代新型机器人时,我们也能提前把相应的数采方案、模型方案梳理清楚。
智能涌现:数据采集、模型迭代、场景拓展,当下你怎么给这些业务排优先级?
王晓刚:数据和场景,是比较关键的。因为具身的产业链很长,所以你需要快速占据一个生态位。
所以在这个时间点,我们正在用自己的解决方案,跟地方政府、场景中的头部企业形成紧密的合作。这是战略的制高点。
模型本身还在演进,不一定那么急迫。但做模型,又有助于我们去抓住场景中的头部企业,因为我们比硬件本体离数据、离场景近。所以在迭代模型的过程中,我们还是得抓住场景,而不是闷在实验室里。
欢迎交流!