日前,《科创板日报》记者独家获悉,京东团队即将于近期开源视觉语言实时交互模型JoyAI-VL-Interaction。该模型想解决的问题,不只是让模型更会"看视频",而是让模型能够通过摄像头等实时视频流持续观察现实世界,并自己判断什么时候该回应、什么时候该保持沉默、以及什么时候把任务委托给后台agent。换句话说,它试图把多模态大模型从传统的"一问一答",推进到"实时流式交互"。在 58 个案例中,JoyAI-VL-Interaction 对豆包的总体胜率为 77.6%,对 Gemini 的总体胜率为 87.9%。其中,在监控预警场景中,对两个基线均取得 100% 胜率。这次的创新到底意味着什么?


首先,变被动为主动是其核心价值。大模型现在的算力成本极高,而在传统的一问一答模式下,算力其实存在巨大的结构性浪费。用户不问,模型就不动,一旦遇到突发情况,比如监控里的火情或者老人摔倒,等用户去提问,往往已经错过了最佳干预时机。京东这个模型的核心逻辑,是让AI“持续在场”,并且知道什么时候该保持沉默,什么时候该主动开口。更关键的是,它把前台和后台任务做了切割。前台一个小模型盯着视频流做实时轻量判断,遇到搞不定的,再丢给后台的大模型或者Agent去深度推理。这实际上是一种非常精妙的产业分工在AI架构上的投射。这叫资源配置的最优化。用轻量级算力解决高频低复杂度的实时感知,用重型算力解决低频高复杂度的深度计算,这种架构直接把大模型在端侧和边缘侧的落地门槛打了下来,符合产业降本增效的刚性诉求。

其次,京东开源的战略价值无疑更大。国内开源圈这两年挺热闹,但真正能贴近产业痛点、形成技术闭环的并不多。京东不仅将开源模型权重,连交互数据、训练方法和完整系统全掏出来了,甚至把后台接口都做好了桥接。这套模型开源,本质上是在下一盘生态大棋,开发者拿到这套东西,可以直接去安防监控、直播运营、无障碍辅助这些垂直场景里试错,开发者用这套系统习惯了,业务流自然就跟京东的技术栈产生了黏性。所以,这不仅仅是个技术开源行为,更是京东在产业互联网深水区里抢占地盘、提升产业话语权的战略布局。

第三,京东开始抢占大模型市场的先发生态位了。现在市面上豆包、Gemini这些大厂产品,虽然聪明,但在很多实际场景里依然受限于“轮次制”的底层逻辑。京东这个模型在评测里能对豆包保持较高的胜率,靠的不是模型比它们更渊博,而是赢在了“时机”上。在产业环境里,时机就是金钱,甚至是生命。一个监控场景里,早零点几秒预警,可能就能避免巨大的财产损失。把“何时开口”这个决策直接训练进模型内部,打破了外部轮询的延迟枷锁,这是对传统交互逻辑的实质性颠覆。当然,实事求是地讲,一个8B规模的模型,指望它在通用知识库和长尾场景里碾压大参数模型是不现实的。但京东很聪明,它不硬扛,遇到复杂难题就委派给后台处理。这种务实的工程妥协,恰恰说明京东懂产业。产业要的不是全能神,而是能在具体业务流里稳定运转、及时响应的工具。

因此,京东此次技术迭代,核心价值不止于一款新模型的发布,而是重构了产业大模型的发展逻辑,在市场上规避掉直接的正面对抗,凭借自身产业场景积淀,持续打磨实时流式交互技术,跳出同质化竞争,为AI产业落地提供了全新路径,这才是京东此次创新最值得我们关注的地方。