DeepSeek-V4 解锁国产芯片：3 个突破比万亿参数更重要

4 月 24 日，DeepSeek 正式发布并开源了 V4 系列模型的预览版本。

媒体和网友的目光，不约而同地聚焦在同一个数字上——万亿参数。

但我看到的却是另一件事。

在 DeepSeek-V4 的官方技术报告里，华为昇腾 NPU 和英伟达 GPU，被写进了同一份硬件验证清单。

这是第一次。

万亿参数级别的模型，首次在正式文档中完成了对国产 AI 芯片的"官方认定"。

这个信号，比参数本身更有分量。

突破一：国产芯片首次进入顶级模型"官方认证"

以前的大模型厂商是怎么做硬件适配的？

早期测试往往优先开放给英伟达、AMD 这些美系芯片厂商。国产芯片？等主版本稳定了再说吧。

但 DeepSeek-V4 打破了这个节奏。

在模型阶段就推进国产算力适配，这在业内是个路径上的重要变化。

为什么这么说？

长期以来，中国大模型厂商的训练与推理几乎全部依赖英伟达的 GPU 和 CUDA 生态。这种依赖带来的不只是成本问题——还有供应安全。

如果 DeepSeek 这样一个顶级开源大模型，能够在华为昇腾生态上跑出不输于英伟达平台的推理性能，它将向整个行业释放一个信号——

在大模型推理侧，国产芯片已具备承载实际商业负载的能力。

这不是某个厂商的 PPT 宣传，是写在官方技术报告里的验证结论。

官方的认定，比参数的胜利更有分量。

根据 IDC 最新数据，2025 年中国 AI 加速卡市场总出货量约 400 万张，国产芯片合计出货约 165 万张，市场份额首次突破四成，跃升至 41%。

而华为昇腾出货量达 81.2 万张，不仅断层领跑国产厂商，还占据了国产芯片总出货量的近一半。

英伟达呢？从 95% 降到了 55%。

这个趋势线，比任何参数都说明问题。

市场份额对比

突破二：超节点方案如何弥补单卡差距

坦白讲，单论单卡算力，昇腾目前还难以直接与英伟达最先进的芯片竞争。

受限于先进制程的获取，这是客观现实。

但华为选择了一条不同的技术路径——“超节点 + 集群”。

什么意思？

在摩尔定律放缓的情况下，从 7 纳米到 3 纳米，每代性能提升不超过 20%。但超节点可以将模型算力利用率从 30% 提升到 45%，相当于提升了 50%。

通过资源的高效调度，在一定程度上可以弥补芯片工艺代差。

徐直军有句话很直白：“由于美国制裁，我们不能产出最先进工艺制程的芯片，但我们基于过去三十多年构筑的联接技术能力，使得我们能够做到万卡级的超节点，经营万卡级的超节点，做到在世界上算力最强。”

昇腾 950 超节点是什么规模？

8192 张加速卡，128 个计算机柜和 32 个互联机柜，整套系统共计 160 个机柜。

相较于英伟达同样将在下半年上市的 NVL144，Atlas 950 超节点的规模是其 56.8 倍，总算力是其 6.7 倍，内存容量是其 15 倍。

当然，集群也面临能耗、占地大等问题。这是技术选择，不是技术碾压。

当单点突破不够快时，系统就是答案。

DeepSeek-V4 属于典型的 MoE 模型，总参数规模达 1.6 万亿、激活参数 49B，这对推理集群的规模和效率提出了极高要求。

8192 卡的超节点，尤其适合这种架构。

超节点数据中心

突破三：价格下降通道已经打开

如果说昇腾 950 解决的是"能不能跑"，那么 Atlas 950 SuperPoD 解决的则是"能不能跑得更便宜、更大规模"。

看价格。

DeepSeek V4-Pro 每百万 Tokens 输入是 1 元，输出是 12 元；V4-Flash 每百万 Tokens 输入是 0.2 元，输出是 2 元。

同时，DeepSeek 明确表示：“预计下半年昇腾 950 超节点批量上市并部署之后，Pro 版本的价格也会大幅度下调。”

为什么敢这么说？

高并发推理的关键不在单卡峰值算力，而在单位时间能服务多少请求、生成多少 Tokens。

吞吐提升后，API 价格便有了下调空间。

一旦昇腾 950 超节点批量上市，理论上将带来三重变化：

吞吐能力显著提升。高并发推理场景下，单位时间生成的 Tokens 数量决定成本。

单位 Token 成本下降。API 价格有了下调空间，Pro 版本可以走向大规模商业化。

国产算力供给规模化。AI 推理不一定只能依靠最贵的 GPU，国产算力同样可以开辟一条新路。

技术的终点是商业，国产算力的商业化拐点到了。

这里有个清晰的国产算力替代逻辑：

如果 DeepSeek 能够在昇腾上跑出不输英伟达的推理性能，且成本更低，那么它将向整个行业证明——国产芯片已具备承载实际商业负载的能力。

这不是"备胎"，这是"正选"之一。

价格下降趋势

产业链已经起飞：谁在受益

DeepSeek-V4 适配昇腾的消息，让国产算力产业链彻底站上了聚光灯下。

一颗昇腾芯片背后，是一条从服务器整机到覆铜板的庞大链条。

在这个链条上，最核心的环节是什么？

服务器整机制造。

AI 芯片必须被物理集成到服务器中，才能进入算力中心、云厂商和政企客户。这一环节也最快转化为订单和营收。

根据中商产业研究院分析师预测，2026 年市场规模将达到 2859 亿元。

昇腾产业链分为三层：

最内层是服务器整机制造商，获单最为直接。华鲲振宇是华为生态中唯一同时获得"鲲鹏 + 昇腾"双领先级认证的企业，其"天宫"系列 AI 服务器已量产并进入多个省级智算中心。

A 股上市公司中，神州数码旗下神州鲲泰、拓维信息都是华为昇腾生态的重要整机硬件伙伴。

中间层是由 CANN 架构为核心的软件生态，决定厂商的生态黏性。

一个重要的信号来自运营商层面：中国移动 2026 年—2027 年人工智能超节点设备集采已开标，采购规模 6208 张 AI 加速卡，总金额约 20.6 亿元，中标文件明确全线采用华为 CANN 生态方案。

这是三大运营商在集团层面首次启动 AI 超节点设备集采，标志着运营商级基础设施正在加速接入国产 CANN 生态。

最外层是上游材料和元件供应商，包括覆铜板、交换机、高速铜连接模组等。

华丰科技是华为高速背板连接器的核心供应商，作为第一大客户，去年贡献了超 60% 的收入。

华泰证券研报判断 2026 年为"国产超节点元年"，测算到 2028 年国产超节点市场空间有望达到 3414 亿元，2026 年至 2028 年的年复合增长率高达 194%。

昇腾产业链结构

写在最后

DeepSeek-V4 适配昇腾，这件事的意义不在当下，在未来。

它证明了一个可能性——AI 推理不一定只能依靠最贵的 GPU，国产算力同样可以开辟一条新路。

当然，产业链机遇的背后也有变数。

昇腾芯片的产能能否跟上爆发式需求，将直接决定整条产业链的订单能否如期兑现。

但这场由 DeepSeek 与昇腾共同点燃的算力变革，才刚刚拉开序幕。

下半年，昇腾 950 超节点批量上市后，Pro 版本的价格会不会真的大幅下调？

这个问题，值得持续关注。