DeepSeek V4 Launch: Transforming China's AI Landscape

DeepSeek V4's release marks a significant shift in China's AI industry, emphasizing product commercialization and competitive dynamics among model developers.

靴子终于落地。

被调侃“Next Week”近3个月的DeepSeek V4,终于显露真身。

1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需求——这些曾被外界纷纷猜测的参数和性能,随着V4的官宣,一锤定音。

Image 1 DeepSeek V4性能测评结果。

姗姗来迟的原由,与V4将训练框架从英伟达迁移到华为昇腾上有关,也与DeepSeek内部的决策变动有关。我们得知,2025年年中,DeepSeek曾面临一次较为严重的训练失败。

“当时,DeepSeek面临重新适配芯片的问题。”一名知情者提到,“内部有关训练方向的意见也不完全统一。梁文锋提出了一些自己的要求,但在执行层面很难折中。”

不过,与外界关于“新模型支持多模态生成和理解”的猜测不同,V4依然是个语言模型。暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。

多名知情者告诉《智能涌现》,DeepSeek的对外融资窗口,是2026年4月中旬打开的。内部的导火索,是DeepSeek需要更多资金支持,训练参数规模更大的模型,同时,留住和招纳更多的顶级人才。

“1.6T的参数量与OpenAI、Anthropic等顶级厂商的模型相比,并不具有绝对的竞争力。”一名从业者对我们提到,很快,国内也有模型厂商,将发布3T参数规模的模型。

在人才侧,随着郭达雅(DeepSeek R1核心作者)、王炳宣(DeepSeek LLM核心作者)等人才被字节、腾讯等大厂挖走,DeepSeek需要一笔大额融资稳定军心、招兵买马。

而转向开放融资的外部导火索,几名业内人士猜测,与腾讯的投资态度有关。在开发融资前,梁文锋和马化腾曾有关注独家注资有过几次商谈。但两名相关人士透露,给腾讯20%股份的条件,没有得到梁文锋的同意。

R1发布以来,一个明显的转变是:DeepSeek从一个偏非营利的、理想主义的技术乌托邦,被迫快速转向一家重视产品、商业化的务实公司。

2026年4月8日,DeepSeek App改版,上线支持复杂推理的“专家模式”,和处理简单任务的“快速模式”——随着V4的发布,我们也从而得知,负责“专家模式”的,是1.6T参数量的V4-pro,支持“快速模式”的,则是284B的V4-flash。

Image 2 DeepSeek App的两种模式。

曾有知情人士表示,2025年下半年以来,梁文锋开始重视产品的打磨。有多名大厂AI产品经理向《智能涌现》提到,2025年年末,DeepSeek对产品策略/经理进行了“开闸式招聘”,他们也多次收到DeepSeek HR的联络。

一名业内人士也对《智能涌现》透露,DeepSeek内部已经搭建了数个创新产品团队,对Agent和其他C端产品形态进行探索。

从更新后的版本看,DeepSeek的文本能力提升明显。在过去一年,我们也听到多位AI行业HR、猎头提起过,不止一次在北大中文系的宿舍,遇见加学生微信的DeepSeek HR

招中文系学生的目的,是做人文领域的数据标注和测评标准搭建。这被视为DeepSeek重视模型的人文性的信号。

虽然“普惠”“开放”,产品简单到只有一个Chat界面,是DeepSeek对外呈现出的形象。但我们了解到,2025年,DeepSeek对产品和商业化的探索一直没有停过——目前,内部已经组建了一支数十人的产品团队,对Agent等产品形态进行探索

甚至更早前,在2024年,爆火前的DeepSeek,也考虑过投流推广,但很快被梁文锋否决。

DeepSeek终于放出年度更新,有如终于掉落的达摩克利斯之剑,让中国乃至全球模型厂商悬着的心稍稍放下。

迈入2026年后,DeepSeek的年度迭代,已成为AI世界“狼来了”的故事。避开DeepSeek,成了近几个月模型厂商的标准动作。

两家刚刚上市的大模型厂商,智谱和MiniMax,在春节前,就错峰发布了新的模型GLM 5和M 2.5。

一名智谱员工告诉《智能涌现》,“DeepSeek将在春节发模型”的传言一放出,算法团队立马拉了会,要求“尽早”发布GLM 5。

MiniMax的一名员工也表示,1月中旬,港股IPO庆功酒的宿醉还没褪去,算法团队就自觉早早回到了工位上。

“错峰”,对这两家已经IPO的模型创业公司尤为重要。“如果比DeepSeek晚发,性能不如它们,会影响股价;但不发,也会影响股价。”上述员工表示,“影响最小的办法,是早发。”

模型公司的融资动作,也要抢在DeepSeek更新前面。

1月末宣布了B+轮融资的阶跃星辰,也迫切地想在春节前Close这轮融资。一名知情人士告诉我们,一旦DeepSeek再次掀桌,和投资人的沟通成本将会非常高。

在从业者眼中,牌桌上一直有“两个DeepSeek”——一个带来被倾轧的恐惧,另一个则作为范式的引领。在模型厂商们温吞缠绵的两年里,行业需要这样一个“不确定性因素”,让厂商们反思、继而冲刺起来。

MiniMax一名员工记得,在年后的内部信和全员会上,创始人兼CEO闫俊杰提到:“DeepSeek帮我们走出了一条我想走的路。”

即使中国AI从业者对DeepSeek情绪复杂,但人们依然承认,DeepSeek改变了中国AI行业的诸多规则。

改变,往往意味着推倒和重建,这必不会是个舒适的体验,但正如一名六小虎投资人对我们评价的那样:DeepSeek奠定了近一年来中国大模型的组织文化、冲研发重点,而在这以后,“它是中国AI跻身全球一流的起点,但不会是终点”。

DeepSeek让中国AI行业的竞争格局,进入相对稳定的中场。但在模型技术的早期,DeepSeek为行业留下的不尽是共识。随着商业化和竞争压力加剧,围绕开源、商业化、增长等命题,各个厂商正在走向不同的分叉口。

在DeepSeek V4发布前,我们与十余位AI行业人士,围绕“DeepSeek改变了中国AI行业什么?”展开对话。

以下,是我们从中总结出的5条“后DeepSeek时代”的新命题。

命题一:重新审视开源的性价比

一年前,DeepSeek R1公开技术报告后,一名AI投资人的判断是:回归基模研究、靠开源开放打响技术品牌,对模型厂商而言是最重要的事。

但如今,他告诉我们,当时的判断有待商榷。

跟随DeepSeek一年后,厂商们大力托举开源和研究生态的时代是否要终结?这一关键问题,随着近期阿里千问大模型技术负责人林俊旸的离职,被摆到了明面上。

某种意义上,林俊旸领导的Qwen,代表着开源生态的利益。但如今,这与阿里作为商业公司的营利性,产生了尖锐的矛盾。

非盈利的黄金时代结束了。”针对这一事件,一名Qwen员工对我们这样评价。

让厂商们动摇的事实是,如今营收最高的2家模型厂商,走的是闭源路线——OpenAI,年化收入超过250亿美元;Anthropic,年化收入超过190亿美元(据The Information报道,数据截至2026年2月底)。

至于国内厂商的模型收入,近期披露的2025年财报显示,MiniMax全年总收入为7903.8万美元,智谱为7.24亿元(约1.05亿美元),与OpenAI和Anthropic相比,还有多个数量级的差距。

Image 3 △2023年以来,OpenAI和Anthropic的年化收入情况。图源:The Information

2026年1月的AGI Next大会上,智谱创始人唐杰也发出警告,“我们可能只是在‘开源游乐场’里玩得开心,而美国的闭源模型早已进入下一个纪元”。

毫无疑问,DeepSeek带动的开源开放生态,让中国模型在2025年内,快速在全球建立知名度和技术口碑。

但一个残酷的事实是,靠开源快速“冷启动”、建立技术口碑的阶段已经过去了。在基模研发仍然“吞金”的当下,如何将口碑转化成真金白银,是更重要的存活命题。

开源的价值,到了被重新审视的时间点。

命题二:投流大战暂停,精细化投放开打

如何解读DeepSeek “0投流,App上线7天用户破亿”的成绩?

放置一年前,行业的目光会不由自主地聚焦在“0投流”之上——这套破圈叙事,推翻了不少厂商深信不疑的增长路径,也戳破了彼时模型产品烧出的虚假繁荣。

警醒,应激。2025年初,不少公司都做出了和大举投流同样激进的反思。

其中的典型,是拉开投流大战序幕的月之暗面。

《智能涌现》曾报道,2025年2月一场持续了五六个小时的战略会上,月之暗面联合创始人张予彤宣布,立刻暂停Kimi在安卓渠道的投流,同时将iOS渠道上的投流预算,从原来的千万元/天,削减到数万元/天。

一名六小虎中层曾对我们假设:以Kimi和豆包为主角,AI应用激进的投流大战,大概率会持续到2025年Q2,按照平均每个季度2亿美金的投流支出,月暗会因资金压力率先败下阵。

当应激的情绪逐渐回归理性,多数厂商的增长成员都告诉我们:投流,仍要继续,但要做聪明的、有的放矢的增长。

事实上,激进的投流、补贴大战,没有因DeepSeek的非典型成功而停止。只是,参战的主要对象,剩下了财力雄厚、手握流量入口的几家大厂

增长大战最白热化的一幕,发生在刚过去不久的2026年春节。阿里千问豪掷30亿元请用户喝奶茶,腾讯元宝狂撒10亿元红包,字节则用同样的10亿元,将豆包送上春晚的舞台。

六小虎的一名增长团队成员,将如今的投流,称作“巧妇要为无米之炊”:“流量入口被大厂们把握,意味着剩余的模型厂商,要用更精细化的增长方式,放弃建立大盘认知,聚焦目标用户。

他举了个例子,如果AI产品的主要场景是金融、法律办公,那就将产品推到一些金融App上,流量还更便宜。

命题三:回归基模,选实用,还是选研究?

R1出圈后,聚焦基模研发,一夕之间成为AI模型厂商的共识。

“我们对自己的研究方向,都更坚定了。”一名亲历R1发布的前月之暗面研究员对我们表示,“R1并不是石破天惊的创新,但它证明,只要大方向判断不出错,厂商坚持自己的路线,就能获得性能上的正反馈,就像DeepSeek一直坚持纯语言和推理。”

此前,为了打榜或是追逐热点,不少厂商会将聚焦在推理、对话等不同性能的模型,分开单独训练。

“这样做可以针对某项能力调优,但模型的实用性会打折扣,客户也不一定买单。”一名智谱员工告诉我们。他提到,一个令智谱警铃大作的现象是,R1发布后,不少行业头部客户,转向了部署DeepSeek。

彼时的智谱在冲击中,做出了一个在上述员工看来“难而正确”的决定:训练一个同时聚集推理、Coding和Agentic能力的模型,GLM 4.5。

这是智谱第一个‘反榜单’的模型,性能调优方向都从真实的客户需求中来,”他表示,“某种意义上,这也是智谱的背水一战。”

同样的反思,也席卷了大厂。2025年1月,前谷歌DeepMind研究副总裁吴永辉,挂帅字节模型团队Seed后,“不刷榜单,聚焦模型能力本身”的方针就被多次提起。

类似的,多名知情人告诉《智能涌现》,前OpenAI研究员姚顺雨加盟腾讯后,花了大力气把模型和AI产品的测评体系重新搭一遍,直接对接人员具体到每个场景的负责人,甚至他们的-1、-2。

“原来混元(腾讯大模型团队)的风格是‘刷榜’,让模型性能有些虚假繁荣。”一名混元成员告诉我们,“顺雨很Sharp,他希望团队认识到模型的真实水平,回归到研发本身。”

但共识之下必有裂隙。技术研发,向来有“实用派”和“研究派”之分,前者注重赢得竞争、商业落地,后者注重学术价值——具体到一家商业公司的体系中,在手头宽裕的时代,承担AI“研究派”角色的,往往是AI Lab、研究院。

然而,随着AI投入的压力逐步加大,基础模型研究该倾向“研究”还是“实用”,业界并没有统一的答案。

可见的是,在商业化目标的趋势下,目前“实用派”占了大多数。一个显著的信号是,AI Lab正在后退和消亡,研发资源被聚集至“实用派”。

2025年以来,字节AI Lab被并入Seed团队,阿里达摩院多个研发团队被重组至通义实验室;2026年3月20日,腾讯也撤销了成立近10年的AI Lab,团队成员并入混元大模型团队。

但DeepSeek在某种意义上依旧验证了,伟大是无法被计划的,不少突破性的技术,源自非功利性的研究。

依然有厂商,选择给“研究派”自由探索的空间——比如,字节Seed内部,还设置了注重研究的虚拟组织“Seed Edge”,鼓励骨干突破更基础、更长期的AGI课题,考核周期延长至3年。

命题四:大模型组织,顶层扁平高效,基层人海战术

命运的齿轮在梁文锋决定脱离幻方量化,单独成立DeepSeek那一天起就开始转动了。

一名接触过DeepSeek早期成员的知情人士告诉《智能涌现》,2023年初,DeepSeek早期团队到位后,梁文锋就坚持将DeepSeek脱离于幻方,理由是“幻方不是AI时代的组织形式,想要实现AGI,必须脱离原有的组织惯性做事。

R1的成功,让不少模型厂商开始重新审视适配AI时代的人才组织形式。

本质每一代(巨头)企业,都是那个阶段最先进的组织,去适配那个时候的技术和商业,自然而然脱颖而出。”在近期一次播客访谈中,阶跃星辰董事长印奇也提到,如今每一家企业的AI顶尖人才都不少,关键在于组织形态。

《智能涌现》曾报道,DeepSeek采取的是相当扁平和“学院派”的管理方式:成员根据具体的目标,分成不同的研究小组;组内没有固定分工和上下级关系——这一组织形式的好处在于,可以充分发挥人的想象力,适配创新业务。

对于规模尚且不大的创业公司而言,寻找适配AI时代的组织形式,尚且有较高的试错空间。不少六小虎的员工都对我们表示,2025年以来,扩张规模成为一件“很谨慎”的事。不少企业甚至选择自行断尾,目的是“更高效、更聚焦”。

但对于动辄万人规模的互联网大厂而言,打破原有组织惯性并非易事。正如印奇所言:创新者的窘境,往往是组织问题;领域内越是优秀的公司,越是将组织模式固化的更好,但往往也更难改变

只是,对于大厂而言,在AI时代延续辉煌辉煌,是必须要做的事。

2025年以来,大厂玩家都试图将模型研发和AI创新业务,规整为一个相对独立于互联网业务的组织,用更为扁平的方式管理

比如虽晚但到的腾讯。《智能涌现》曾独家报道,原来分散在各个BG中的模型核心研发资源,在数次调整中,被集中在姚顺雨管理的AI Infra部,以及大语言模型部。

在近期的答疑会上,姚顺雨针对AI Lab与混元的整并,也做出了回应:要打破部门墙,让AI基础模型的开发和研究架构更年轻、更直接

但精简研发团队的另一面,是数据、评测等支持团队的激进扩张。

“模型底层算法的迭代,到了一个平台期。在算法架构没有突破的情况下,训练数据的质量在模型性能迭代中起到了关键作用。”一名大语言模型研究员告诉我们,“尤其是视频、3D等涉及主观审美的多模态数据,各个厂商之间的质量差距就会显现出来。”

用高薪、高职级组建数据、评测,在不少厂商中已经屡见不鲜。

一名知情者告诉我们,,近期字节Seed总规模相较于年初,已经翻了约2倍豆包某一个尺寸的模型,光负责智商评测的就有5人,负责策略产品的有五六十人,“豆包、Seedance目前的性能优势,都是靠人力堆出来的。”

在数据供应的上游,盘踞在成都、武汉等城市的数据标注公司,已经跑出了不少年营收过亿的“隐形巨头”,招聘的普遍门槛,从中专、大专,抬高到了211硕士。

金字塔结构”,一名Seed研究员如此形容目前模型组织的标准范式:研发顶端,是少数顶尖大脑,而为顶层输送燃料的数据、评测,依然需要人海战术。

命题五:年轻人和“一把手工程”

组织最重要的毛细血管,则是人。很难说,是DeepSeek统一了行业“重视年轻天才”的人才审美,但各个厂商对AI年轻人才的渴求,被拉到了一个史无前例的高度。

Image 4 △腾讯“CEO/总裁办公室”首席AI科学家 姚顺雨,1998年生。图源:姚顺雨个人博客

“很多大厂的HR团队,前几年招人的姿态都比较‘甲方’。”一名在AI行业从事了7、8年高端人才招聘的猎头告诉我们,“他们只负责给钱,但与人才在业务上的沟通都比较浅。”

明显的转变发生在R1发布之后——抢人,成了各大公司的“一把手工程”。

一名混元成员也告诉我们,姚顺雨进入腾讯后的一个重要任务,是招人。自2025年9月,他加入腾讯以来,已经替混元面试了近百人,“每个校招生他都会亲自面,也常找突出的实习生吃饭”。

“DeepSeek终于让厂商们自上而下对齐了一件事:AI就是top mission。”一名AI投资人总结。

结语:一直仰望,就无法超越

DeepSeek不能一直待在神坛上。正如一名混元研究员所言:一直仰望,就无法超越

2025年下半年以来,模型玩家们对DeepSeek的态度,不再只有景仰,而是暗自卯足了超越的野心。

这一点,在去年借助DeepSeek流量,快速托举元宝的腾讯身上,尤为明显。一名元宝员工告诉我们,截至2025年底,仍有约7成用户将DeepSeek选为元宝的默认模型,而非腾讯自己的模型混元。

“2026年,元宝的一个重要目标就是摆脱DeepSeek依赖,让腾讯自己的搜索品牌形成一定的用户心智。”她告诉我们。

当然,这也势必伴随更激进的模型研发目标。一名混元研究员告诉我们,2026年4月23日发布的新模型Hy3 preview,腾讯设定的目标是跟上第一梯队。第一梯队的名单,则是DeepSeek和阿里。

对于牌桌上更早进场的其他玩家而言,经过一年的调整、加速,几乎所有厂商都在模型赛道,找到了差异化的身位:

字节和阶跃星辰聚焦全模态;月之暗面和智谱打磨Coding和Agentic能力;MiniMax保持语言模型不掉队的同时,突出视频生成模型的优势。

“每个厂商都沿自己的路线走。”Jason告诉我们,“这条路的终点可以是AGI、是泼天财富,但绝对不会是包括DeepSeek在内的任何一家公司。”

2016年,埃隆·马斯克和OpenAI CEO山姆·奥特曼有过一段公开对话。他提到:“人们有时会认为技术每年都会自动进步,但其实并非如此。只有聪明的人们拼命努力去改进它,技术才会进步。

Image 5 △埃隆·马斯克(右)与山姆·阿尔特曼(左)的对谈。图源:YouTube@Y Combinator

2025年初,DeepSeek恰好成了那个吹哨的聪明人。2026年,努力的聪明人会更多。

(文中受访者均为化名)

Image 6

Was this helpful?

Likes and saves are stored in your browser on this device only (local storage) and are not uploaded to our servers.

Comments

Discussion is powered by Giscus (GitHub Discussions). Add repo, repoID, category, and categoryID under [params.comments.giscus] in hugo.toml using the values from the Giscus setup tool.