Featured image of post DeepSeek-V4 解锁国产芯片:3 个突破比万亿参数更重要

DeepSeek-V4 解锁国产芯片:3 个突破比万亿参数更重要

4 月 24 日,DeepSeek 正式发布并开源了 V4 系列模型的预览版本。媒体和网友的目光,不约而同地聚焦在同一个数字上——万亿参数。

4 月 24 日,DeepSeek 正式发布并开源了 V4 系列模型的预览版本。

媒体和网友的目光,不约而同地聚焦在同一个数字上——万亿参数。

但我看到的却是另一件事。

在 DeepSeek-V4 的官方技术报告里,华为昇腾 NPU 和英伟达 GPU,被写进了同一份硬件验证清单。

这是第一次。

万亿参数级别的模型,首次在正式文档中完成了对国产 AI 芯片的"官方认定"。

这个信号,比参数本身更有分量。

突破一:国产芯片首次进入顶级模型"官方认证"

以前的大模型厂商是怎么做硬件适配的?

早期测试往往优先开放给英伟达、AMD 这些美系芯片厂商。国产芯片?等主版本稳定了再说吧。

但 DeepSeek-V4 打破了这个节奏。

在模型阶段就推进国产算力适配,这在业内是个路径上的重要变化。

为什么这么说?

长期以来,中国大模型厂商的训练与推理几乎全部依赖英伟达的 GPU 和 CUDA 生态。这种依赖带来的不只是成本问题——还有供应安全。

如果 DeepSeek 这样一个顶级开源大模型,能够在华为昇腾生态上跑出不输于英伟达平台的推理性能,它将向整个行业释放一个信号——

在大模型推理侧,国产芯片已具备承载实际商业负载的能力。

这不是某个厂商的 PPT 宣传,是写在官方技术报告里的验证结论。

官方的认定,比参数的胜利更有分量。

根据 IDC 最新数据,2025 年中国 AI 加速卡市场总出货量约 400 万张,国产芯片合计出货约 165 万张,市场份额首次突破四成,跃升至 41%。

而华为昇腾出货量达 81.2 万张,不仅断层领跑国产厂商,还占据了国产芯片总出货量的近一半。

英伟达呢?从 95% 降到了 55%。

这个趋势线,比任何参数都说明问题。

市场份额对比

突破二:超节点方案如何弥补单卡差距

坦白讲,单论单卡算力,昇腾目前还难以直接与英伟达最先进的芯片竞争。

受限于先进制程的获取,这是客观现实。

但华为选择了一条不同的技术路径——“超节点 + 集群”。

什么意思?

在摩尔定律放缓的情况下,从 7 纳米到 3 纳米,每代性能提升不超过 20%。但超节点可以将模型算力利用率从 30% 提升到 45%,相当于提升了 50%。

通过资源的高效调度,在一定程度上可以弥补芯片工艺代差。

徐直军有句话很直白:“由于美国制裁,我们不能产出最先进工艺制程的芯片,但我们基于过去三十多年构筑的联接技术能力,使得我们能够做到万卡级的超节点,经营万卡级的超节点,做到在世界上算力最强。”

昇腾 950 超节点是什么规模?

8192 张加速卡,128 个计算机柜和 32 个互联机柜,整套系统共计 160 个机柜。

相较于英伟达同样将在下半年上市的 NVL144,Atlas 950 超节点的规模是其 56.8 倍,总算力是其 6.7 倍,内存容量是其 15 倍。

当然,集群也面临能耗、占地大等问题。这是技术选择,不是技术碾压。

当单点突破不够快时,系统就是答案。

DeepSeek-V4 属于典型的 MoE 模型,总参数规模达 1.6 万亿、激活参数 49B,这对推理集群的规模和效率提出了极高要求。

8192 卡的超节点,尤其适合这种架构。

超节点数据中心

突破三:价格下降通道已经打开

如果说昇腾 950 解决的是"能不能跑",那么 Atlas 950 SuperPoD 解决的则是"能不能跑得更便宜、更大规模"。

看价格。

DeepSeek V4-Pro 每百万 Tokens 输入是 1 元,输出是 12 元;V4-Flash 每百万 Tokens 输入是 0.2 元,输出是 2 元。

同时,DeepSeek 明确表示:“预计下半年昇腾 950 超节点批量上市并部署之后,Pro 版本的价格也会大幅度下调。”

为什么敢这么说?

高并发推理的关键不在单卡峰值算力,而在单位时间能服务多少请求、生成多少 Tokens。

吞吐提升后,API 价格便有了下调空间。

一旦昇腾 950 超节点批量上市,理论上将带来三重变化:

吞吐能力显著提升。高并发推理场景下,单位时间生成的 Tokens 数量决定成本。

单位 Token 成本下降。API 价格有了下调空间,Pro 版本可以走向大规模商业化。

国产算力供给规模化。AI 推理不一定只能依靠最贵的 GPU,国产算力同样可以开辟一条新路。

技术的终点是商业,国产算力的商业化拐点到了。

这里有个清晰的国产算力替代逻辑:

如果 DeepSeek 能够在昇腾上跑出不输英伟达的推理性能,且成本更低,那么它将向整个行业证明——国产芯片已具备承载实际商业负载的能力。

这不是"备胎",这是"正选"之一。

价格下降趋势

产业链已经起飞:谁在受益

DeepSeek-V4 适配昇腾的消息,让国产算力产业链彻底站上了聚光灯下。

一颗昇腾芯片背后,是一条从服务器整机到覆铜板的庞大链条。

在这个链条上,最核心的环节是什么?

服务器整机制造

AI 芯片必须被物理集成到服务器中,才能进入算力中心、云厂商和政企客户。这一环节也最快转化为订单和营收。

根据中商产业研究院分析师预测,2026 年市场规模将达到 2859 亿元。

昇腾产业链分为三层:

最内层是服务器整机制造商,获单最为直接。华鲲振宇是华为生态中唯一同时获得"鲲鹏 + 昇腾"双领先级认证的企业,其"天宫"系列 AI 服务器已量产并进入多个省级智算中心。

A 股上市公司中,神州数码旗下神州鲲泰、拓维信息都是华为昇腾生态的重要整机硬件伙伴。

中间层是由 CANN 架构为核心的软件生态,决定厂商的生态黏性。

一个重要的信号来自运营商层面:中国移动 2026 年—2027 年人工智能超节点设备集采已开标,采购规模 6208 张 AI 加速卡,总金额约 20.6 亿元,中标文件明确全线采用华为 CANN 生态方案。

这是三大运营商在集团层面首次启动 AI 超节点设备集采,标志着运营商级基础设施正在加速接入国产 CANN 生态。

最外层是上游材料和元件供应商,包括覆铜板、交换机、高速铜连接模组等。

华丰科技是华为高速背板连接器的核心供应商,作为第一大客户,去年贡献了超 60% 的收入。

华泰证券研报判断 2026 年为"国产超节点元年",测算到 2028 年国产超节点市场空间有望达到 3414 亿元,2026 年至 2028 年的年复合增长率高达 194%。

昇腾产业链结构

写在最后

DeepSeek-V4 适配昇腾,这件事的意义不在当下,在未来。

它证明了一个可能性——AI 推理不一定只能依靠最贵的 GPU,国产算力同样可以开辟一条新路。

当然,产业链机遇的背后也有变数。

昇腾芯片的产能能否跟上爆发式需求,将直接决定整条产业链的订单能否如期兑现。

但这场由 DeepSeek 与昇腾共同点燃的算力变革,才刚刚拉开序幕。

下半年,昇腾 950 超节点批量上市后,Pro 版本的价格会不会真的大幅下调?

这个问题,值得持续关注。

探索GPT未知,共创AI美好未来
Built with Hugo
Theme Stack designed by Jimmy