上个月「麻省理工科技评论」杂志发了一篇报道,大意是一家美国机器人数据公司雇佣了大批第三世界工人头戴摄像头进行作业,为AI提供训练数据。

这幅画面的讽刺性暂且不论,我更关心的是语言模型已经爆发了三年之久,为什么机器人的训练数据还是要靠人戴着摄像头一帧一帧的录?

当然是因为太稀缺了。

众所周知,在预训练阶段,语言模型几乎已经吃完了人类古往今来的所有公开知识,强如Anthropic,近些年也因为大量购买实体书进行扫描而频频陷入版权风波,原因就是不这么干,是真没有东西可以喂给AI了……

文本化的内容尚且如此,就不难想象对AI来说天然更复杂的物理世界,训练数据堪称赛博石油的价值。

不过一家来自中国的创业公司灵御智能,在前不久颇具野心的提出了「真机数据自由」主张,直面着整个行业待解的题。

科普一下,所谓真机数据,就是由机器人本体采集并加入训练的原生数据,这并不是灵御智能自创概念,但从结果来看,它是极少数能把这条路走到底的玩家。

把人类的作业流程录成视频喂给AI,本质上是一种视觉方案,它的局限性在于只能观察、无法感觉,而且用人类的行为逻辑直接套用在机器身上,未必是AI真正想要的。

但真机数据不同,一名机器人在完成作业后,留下来的数据远不止于视觉画面——电机的转矩、末端的力反馈、关节的空间位置——这些要素组成了一次完整的物理操作,继而可以被复用在另一台机器上,质量显著高于「人类做、AI学」的方案。

常用模型的人都懂,像Markdown这类格式,人类理解起来很费力,但作为模型训练的语料完全就是香饽饽,是训练AI效率最高的选项,没有之一。

所以灵御智能从硬件阶段,就开始致力于解决真机数据的效率和质量问题,在去年中关村具身智能机器人应用大赛上,灵御自研的TA机器人系列在相同场景里的耗时只有同类竞品的30%,但凡有点了解的人,应该都清楚这个数字的含金量。

另一方面,行业单次数据任务普遍还处于3-5元的成本区间时,灵御智能已经通过一套低成本替换方案把价格压到了0.6元,用「减价不减质量」给具身智能的商业化提速。

除此之外,在很多机器人公司都追求端侧绝对自主的叙事时,灵御仍然坚持把大脑放在云端、根据场景调用专家模型的「一身多脑」路线。

从合作商的反应来看,行业是真的需要这种反直觉但务实的做法。

今年4月与英特尔的合作中,双方在西子智慧产业园完成了云模型操控机器人执行实际任务的能力展示,跑通了从数据采集到模型训练再到机器人执行的完整链路。

要知道,让LLM腾飞的地基——海量、标准化、可复用的训练数据——在物理世界里还没有人认真建过,灵御在做的事,是填补行业一直以来无法忽视的缺口。

至于最后的结果能不能成,取决于基础设施层能不能在行业真正爆发之前跑通规模化。

可以预见的是,这个时间窗口,不会等太久。