本文来源:时代周报 作者:谢斯临 赵鹏
图片来源:时代周报记者摄
入职4个月后,腾讯首席AI科学家姚顺雨交出了第一份答卷。
4月23日,腾讯混元发布Hy3 preview语言模型并将模型开源。据腾讯方面介绍,这是一个快慢思考融合的混合专家模型,总参数295B,激活参数21B,最大支持256K上下文长度。这是混元重建后训练的第一个模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅提升。
腾讯在AI的布局和投入节奏一向被人评价为“慢”。在今年1月腾讯年会上,腾讯董事会主席兼首席执行官马化腾也公开承认,腾讯比友商“慢了9个月到1年时间”。他认为,基础设施不足,模型迭代频率偏低以及平台能力有待提升。
高层的反思无疑加速了腾讯AI的变革。2025年开始,腾讯混元大模型完成了“深度重构”:在人才引进、组织结构等方面做出了重大调整,吸引了更多原生AI领域人才。其中,姚顺雨的加入被普遍视作重要拐点。
在被腾讯挖角之前,姚顺雨在OpenAI工作过一年,深度参与智能体产品Operator与Deep Research的开发,成为这两大项目的关键贡献者。凭借在AI领域的突破性研究,2025年姚顺雨还入选《麻省理工科技评论》TR35榜单,成为该奖项中国区最年轻的入选者之一。
为了吸引姚顺雨,腾讯可能提供了国内大模型人才战中的职位和薪酬的最高标准。曾有市场传闻称腾讯为了挖走他开出了上亿元的薪水,腾讯随后辟谣。但即便这个数字并不真实,1998年出生的姚顺雨仍是国内大厂中最年轻的AI一号位。
入职后,姚顺雨获得了前所未有的资源支持。腾讯分散在不同事业群的AI研发业务被重新整合,就连成立10年的腾讯AI Lab也悄然解散,研究能力并入姚顺雨的大模型体系。
正因如此,外界对姚顺雨在腾讯的举动高度好奇。这位只有28岁的年轻人,究竟能为腾讯AI带来何种变化?腾讯AI的未来技术路径与战略重心又将走向何方?
希望团队不要盯着榜单做事
姚顺雨入职腾讯之后的一项重要任务是,帮助腾讯找到混元大模型长期表现欠佳的原因。而在姚顺雨一番内部调研后发现,混元的评测出现了问题。
据晚点此前报道,姚顺雨曾在内部会议上指出,过去的混元模型过度追逐榜单成绩,将打榜的语料放入训练集以致数据被污染,影响了在真实场景中的表现。他希望团队以后不要打榜,也不要盯着榜单做事。
在2026年1月的一次公开亮相中,姚顺雨也曾谈及模型“刷榜”。他指出,国内对刷榜或数字看得更重,而DeepSeek做得比较好的一点是,他们可能没有那么关注榜单的数字。DeepSeek可能会更注重:第一,什么是正确的事情;第二,什么是自己能体验出好或者不好的。
“这需要大家走出这些榜单的束缚,能够坚持自己认为正确的过程。”姚顺雨说。
姚顺雨首先要做的就是改变混元团队对刷榜的依赖。时代周报记者获悉,2026年2月,腾讯混元重建了预训练和强化学习的基础设施,并提出了三个原则:能力体系化、评测真实性、性价比追求。
腾讯想要以此跳出“刷榜”的怪圈,通过自建题目、人工评测、产品众测等多种方式,评估和改进模型的“真实战斗力”。具体来看,在Hy3 preview中,混元团队没有完全依赖行业通用的公开评测集,而是自建了50多个Benchmarks(评测基准,即用来衡量模型真实能力的标准化测试集)来评估模型的实际能力和落地性。
与此同时,姚顺雨也在追求模型与腾讯内部业务的贴合,让模型在实际应用中学习进化。
在上述公开发言中,姚顺雨也曾强调,大型科技公司应利用自身庞大的内部场景进行验证。与初创公司依赖外部标注商不同,一家拥有10万员工的大厂本身就是巨大的实验场。
“把真实世界的数据利用好,而不是仅仅依赖于标注商或者外部采购,是更有意思的事情。”姚顺雨说。
为此,正式上线之前,Hy3 preview也在腾讯主要AI业务进行了产品测试。比如,混元就与元宝进行了深度协同设计(Co-Design)。一方面,Hy3 preview针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面,Hy3 preview对文风、文笔、交互情商、内容组织与专业度上进行精细化调优。
在公众号AI分身和AI客服的场景评测中,Hy3 preview在用户意图理解、复杂上下文承接和知识信息组织方面的表现也更为成熟。结合知识库、用户记忆与上下文生成回答时,Hy3 preview更贴合AI分身和AI客服的角色,过度脑补、主观代入和情绪化表达问题明显减少。
得益于这些动作,Hy3 preview的实用性有所提升。特别是在Agent、上下文学习、复杂推理和代码等主推能力上,Hy3 preview的表现已经接近或超越Kimi-K2.5和GLM-5,但相比Gemini-3.1-Pro与GPT-5.4 xhigh仍有一定差距。
姚顺雨进一步指出,腾讯将继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。
成本相比上一代模型大幅下降
除去能力上的变化之外,Hy3 preview的另一项显著变化在于成本的降低。
据腾讯方面介绍,得益于模型和推理框架上的深度协同,以及在推理框架、算子性能、量化算法等全方面优化,Hy3 preview整体推理效率提升40%,成本相比上一代模型也大幅下降。
在腾讯云大模型服务平台TokenHub上,Hy3 preview输入价格最低1.2元/百万tokens,缓存命中输入价格0.4元/百万tokens,输出价格最低4元/百万tokens。同时,腾讯云还联合混元推出Hy3 preview Token Plan定制套餐,个人版定价最低每月28元。
这无疑是对“Token经济”的一次回应。当OpenClaw成为全民关注点,各大厂商加入“龙虾潮”,Token的消耗就开始呈现出指数级的增长趋势。据国家数据局披露,2026年3月中国日均Token调用量已突破140万亿,较2024年初的1000亿增长超千倍,较2025年底的100万亿增长40%以上。
自此,一场无声的“座次重排”已然开启。流量不再是衡量互联网公司竞争力的唯一标尺,Token正崛起为新的硬通货。如何吸引用户消耗更多Token,也随之成为AI时代竞争的关键。
不过,价格只是Token战争当中的一环。上海期智研究院研究员李彪曾撰文指出,如果今天仍有人只讨论“哪个模型每百万Token更贵”,这说明只看到了底层供给的一部分。真实情况是,企业目前购买的是一段被组织过的智能劳动,裸模型只是其中的一小部分。它可能同时包含模型推理、搜索、检索、缓存、上下文驻留、运行时、容器、团队席位、动作配额,乃至一个被明确定义的“完成件”。
“AI经济正在经历的,不是一场简单的价格战,而是计费对象的扩散。”李彪写道。
在这种情况下,只关注Token的消耗,而忽视模型本身的输出能力和成本效率,客户终将流失。唯有聚焦产品本身,为客户创造切实的价值,才能自然形成真实、可持续的Token消耗。
也正是因此,各家大厂之间,模型能力的竞争仍在不断升级。今年2月,字节跳动先后发布了Seed 2.0大语言模型和新一代视频生成模型Seedance 2.0,此后持续高频更新;4月,阿里也发布了Qwen 3.6的多个版本,并认领了近期“屠榜”的神秘视频生成模型HappyHorse;DeepSeek-V4的预览版本也已经在4月24日正式上线并同步开源。
此外,对于C端用户的争夺也在加剧。移动数据调研机构Quest Mobile报告显示,元宝在一季度新增用户820万,豆包和千问的增量则分别达到了1亿和1.26亿。截至2026年3月,国内月活用户规模最大的三个AI App分别是豆包、千问和DeepSeek,豆包的月活用户数量已经达到3.45亿;千问月活超越DeepSeek,达到1.66亿;元宝则排在第四,月活只有5735万。
激烈竞争之下,腾讯仍需不断加速迭代,才能追平因起步慢带来的差距。正如姚顺雨所说,Hy3 preview只是混元大模型重建的第一步。