你一定有过这种经历:开完一场两小时的会议,录像文件安安静静躺在网盘里,但没人愿意回看——因为回看的成本几乎等于再开一次会。
一条爆款带货视频刷到了,你隐约觉得它的转化逻辑值得学,但既没时间逐帧拆解,拆了也不知道怎么变成自己的脚本。
还有英文播客、发布会直播、夹杂方言且需要复盘的客服录音——这些音视频内容每天都在大量产生,但对绝大多数人来说,它们被"看过"或"听过"之后,就再没有然后了。
我们的日常中,大量非常非常有价值的音视频内容无法被拆开、被检索、更没法总结经验拿去复用。
而阿里千问刚刚发布的Qwen3.5-Omni,让我们觉得这个问题开始有解了。
它是千问最新一代全模态大模型,采用混合注意力MoE架构,在海量文本、视觉及超过1亿小时的音频数据上做了原生多模态预训练,在215项第三方性能测试中取得SOTA,多项核心指标超越Gemini-3.1 Pro。
比跑分更值得说的,是我们在实测中实际体验到的东西——经过几轮极其刁钻的极限测试后,这个全模态模型彻底震撼到我了:
我们让它拆解了一支《沙丘》预告片——它不仅按时间戳做了结构化分析,还推理出了角色间的隐含关系,生成了带节奏设计和调色建议的复刻分镜脚本;
我们给了它一条爆款TikTok带货视频——它拆出了完整的转化归因,输出了可以直接迁移到其他行业的5步脚本模板;
我们对着一张画得很丑的手绘草图口述需求——它直接生成了能跑的React页面,然后我们继续口述修改,它一轮轮迭代下去,上下文始终没丢。
这意味着,你可以把一场两小时的会议录像扔给它,拿回一份带时间戳的结构化纪要和待办清单;把一条竞品的爆款视频丢进去,直接拿到可迁移的脚本模板;用它给客服录音做质检,输出情绪轨迹和话术评分。
它的意义,绝不仅仅是多模态能力的又一次参数升级。它让我亲眼看到,原本只能"看一遍就过去"的音视频内容,是如何被生生拆解成可以直接拿去干活的“数据资产”的。
而如果你给你的龙虾接上Qwen3.5-Omni,给你的龙虾装上“眼睛”和“耳朵”,那么你就能获得一个真正能听懂语音指令、看懂视频内容、理解音频信息,还会操作电脑的数字员工。
这,或许才是那场我们期待已久的、属于全模态大模型的真正生产力革命。
接下来,我们先来看看实测细节,再聊聊这个模型正在改变什么,以及阿里拿它在下一盘什么棋。
拆电影、复盘带货、口述写代码:全模态能力全面进化
(1)沙丘:不止是"看懂故事"
我们选了没有字幕版的《沙丘》预告片作为第一个测试素材,来对Qwen3.5-Omni的多模态能力进行“极限测试”。
预告片天生就是视频理解领域最不友好的素材:密集的镜头切换、多线叙事、大量隐喻和视觉暗示,视听密度极高。
而对于Qwen3.5-Omni来说,第一轮的结构化信息提取几乎没有难度:剧情时间线、关键镜头、画面文字、说话人与台词、角色阵营关系、情绪变化曲线,全部按时间戳精准剥离。
第二轮,我们指定了第24秒出现的台词,要求它回答对应画面、说话者和情绪。它准确定位到"She would need to be strong, like her mother",正确识别为保罗的画外旁白而非现场对话,对应画面为查妮沙漠逆光侧脸特写,情绪判断——温柔、敬重、期许——与画面完全吻合。
真正的考验,在于第三轮的"深层推理追问"——
我们要求它分析角色间的"隐含关系"并给出镜头和台词证据、识别预告片中的"伏笔"镜头及其对未来剧情的指向、生成一个45秒短视频复刻分镜脚本。
它准确识别出保罗与费德-罗萨之间的"镜像宿敌"关系、保罗与杰西卡之间的"断裂传承"张力、查妮作为"人性锚点"的角色定位,而且附带了视觉构图证据和台词对照。
它给出的复刻分镜脚本也不是模糊的叙事概括,而是带有"慢板抒情→快速剪辑→史诗爆发"的三段式节奏设计,甚至包含调色方向、音效提示和字幕处理建议。
说实话,到这一步,它已经不是在"看懂视频",而是有点导演拆片的意思了。它把LLM的"视频理解"能力,从摘要层推到了镜头语言解读、关系推理层面。
(2)带货:从一条爆款Tiktok带货视频里,拆出转化的底层逻辑
对更多人来说,更现实的问题是:它在真实世界,在日常工作中是不是真的“有用”?
我们输入了一条义乌招商类TikTok爆款带货视频,要求Qwen3.5-Omni帮助我们拆解、复刻。
结果,模型不仅按Hook、卖点排序、画面证明点、字幕策略、情绪节奏、CTA时间点、目标人群七个维度完成了结构化拆解,它的归因分析也极具洞察力:三级物理证据链构建"所见即所得的信任"、"2万种SKU + 20美分均价"制造数字锚点、保姆式全案承诺实现风险逆转。
换句话说,它看出来了:这条视频卖的不是商品,而是确定性。
为了验证它是不是在生搬硬套营销学名词,我们告诉它,"我家工厂是卖T恤的,帮我按这个套路设计一个脚本",要求它把这套逻辑迁移到"T恤定制工厂"场景。
结果,它不仅把刚刚分析出的5步转化模板成功迁移到T恤场景,还把Hook极其自然地改成了"拉扯T恤展示弹性",把实力证明换成了"印花机喷墨特写+揉搓不掉色",甚至附带了评论区运营引导私信的实操建议。
也就是说,大模型不再只是内容理解工具,它已经可以充当不知疲倦的电商分析师和社交媒体运营专家。
(3)口述一个App:边看、边说、边改
第三个测试,堪称“Vibe Coding”的升级版——"音视频Vibe Coding"。
我们手绘了一张故意画得很粗糙的APP线框图,打开摄像头,手持草图对着镜头口述:"你看这个是我画的界面草图……请用React帮我生成完整代码,可以直接运行的。"
它识别了手绘布局并生成了React代码。接着我们继续口述修改——"导航栏改成侧边栏,主按钮放大一倍换圆角",同时上传替换图片。之后又测了深色主题、进度条动画、按压反馈等迭代,它始终能延续上下文,不丢失之前的修改。
几轮修改后,网页成功上线。
整体体验上来说,它接住了人类最真实的交互方式:边看、边说、边改。不是以前那种"AI生成代码你自己去调"的体验,更像一个经验丰富的开发者坐在你的旁边。
(4)连起来看
从《沙丘》的复杂叙事,到带货的商业分析,再到口述做App的随性交互,如果我们把上面的几个测试案例串起来看就会发现:
Qwen3.5-Omni成功证明了:它能把复杂的、混乱的、连续的输入,变成可以直接拿去用的结果。
另外补充两个我们也测了但没展开写的用例:游戏视频生成解说:网页端出文案,API端出TTS语音;"24小时AI新闻编辑部"——50分钟国际新闻发布会音频走完信息提取、双语稿件生成和语音播报,效果都不错,感兴趣的朋友也可以试试。
底层改变:从"看懂内容"到"拆成资产"
前面三个场景能跑通,不仅因为"能力变强了",而是底层产品设计发生了质变:它把连续、混杂、难以检索的音视频流,强制拆解为高度结构化的中间层。
(1)拆得多细:不是摘要,是字段级的结构化资产
翻开官方API文档你会发现,Qwen3.5-Omni对音视频的推荐输出格式不是一句笼统的摘要,而是三层硬结构:
Storyline(按时间戳融合音画细节的故事线);
Visible Text(带起止时间和外观特征的画面文字清单);
Speakers and Transcript(含说话人身份、口音、语气、情绪的逐字稿)。
换句话说,它拿到的不再是"一团视频",而是一份可以被代码直接调用、检索和执行的结构化资产。这就是沙丘测试能做到精确回溯,TikTok测试能输出可迁移模板的底层原因。
支撑这种颗粒度的,是实打实的模型基础能力——混合注意力MoE架构,超过1亿小时音频数据的原生多模态预训练,模型智力与qwen3.5-plus同一水平,215项第三方测试取得SOTA。
(2)拆得多长:超大上下文窗口
256K上下文窗口,支持超过10小时音频、超过400秒720P视频。
长内容真正的难点从来不是"看完",而是跨段关联和证据回溯——扔进10小时的会议录音,问"第5分钟提到的人在第30分钟说了什么";输入带货直播录屏,让它揪出夸大宣传的时间点并附上画面和台词证据;用它给客服录音做质检,输出情绪轨迹和话术评分。
这些过去高度依赖人力、极易出错的信息整理工作,Qwen3.5-Omni正在试图接管。
(3)交互:是动态接口
实时交互这一面,它支持智能语义打断——不会因为你咳嗽一声或随口说个"嗯"就中断发言,过滤掉了无意义的背景音干扰。
它原生支持联网搜索的FunctionCall,能自主判断是否需要拉起搜索来回应实时问题,开发者还能在回执中看到精确的计量信息。这从工程层面缓解了企业用大模型时最头疼的"时效性与幻觉"问题。
语音表达层的能力提升同样很有价值,现在,它支持113种语种和方言的语音识别,三十六种语言和方言的语音合成,内置47个多语言说话人和8个方言说话人。
在我们的实测中,无论是自称"声音像温热奶茶"的客服角色Tina,还是四川话的"晴儿",角色感和产品感都很强。
这不只是"听得懂更多",而是为海外客服、审核质检、有声读物、播客配音这些高频场景备足了弹药。
一句话简单总结,Qwen3.5-Omni,让音视频变得"可拆"——不是"看懂了",而是拆成可以检索、可以复用、可以直接拿去干活的现成素材。
阿里真正想卖的,也不只是一个模型
聊完产品和技术,值得把视线从模型本身移开,看看阿里最近在组织和产品上的一系列动作——一条清晰的商业暗线就会浮出来。
不久前,阿里成立了由CEO吴泳铭直管的 Alibaba Token Hub(ATH)事业群,明确提出以“创造Token、输送Token、应用Token”为核心。其中,首次亮相的“悟空事业部”定位极为明确:“B端AI原生工作平台,将模型能力深度融入企业工作流”。
而在钉钉最新发布的“悟空”产品中,核心逻辑已经从“沟通即生成”进化为了“沟通即执行”(CLI化,AI直接调底层接口)。AI 不再只是陪你聊天,而是被要求自己去网上看竞品视频、分析小红书爆款、跨系统拉取数据、甚至生成数据动画。
注意这里的关键词:看视频、听音频、跨平台执行。当AI Agent开始长出"手脚",自主去处理大量音视频内容时,它对全模态理解能力的需求和Token的消耗量,都将远超纯文本对话时代。
在这个背景下回看Qwen3.5-Omni,它的极低定价(每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低)和强大的结构化音视频能力,更像是在为以悟空为代表的阿里B端企业级Agent大规模落地,储备高性价比、稳定的全模态基础设施。
要知道,把长达数小时的音视频拆解成精细的结构化数据,过去意味着企业需要拼装一整条链路——ASR转写、文本大模型、视觉理解模型、TTS合成——成本高、链路长、断点多。
而现在,一个端到端的全模态模型,把这件事的门槛彻底踏平了。
我觉得Qwen3.5-Omni真正值得被记住的,不是它今天能看懂一段多复杂的电影预告片而是从这一刻起,它开始能把音视频内容,变成企业工作流里可以切实处理、复用的“数字资产”——
全模态大模型驱动的生产力革命,正在来临。