Deepseek V4对存储、光模块需求的打击尚待显现

五一期间，密集在Agent模式下，体验Deepseek V4，尤其是便宜的Deepseek V4 Flash。

一边用，一边算价格，一边感叹：Deepseek V4的缓存读取价格，真是便宜到离谱。

经常调用大模型API的应该知道，大模型的定价，在百万token下，有三个核心定价：未命中缓存读入、命中缓存读入和输出。

在Agent时代，由于大模型要频繁调用工具，需要频繁将之前的上下文重新发给大模型，所以命中缓存读入的价格，对整体费用的影响极大——前段时间Cluade Code被大家吐槽的一点就是，悄悄在上下文“加料”，让许多用第三方模型搭配Cluade Code的玩家，遭遇缓存未命中，成本骤增的问题。

正因此，模型厂商如何定价命中缓存的价格折扣，对长期使用成本，影响不小。

下图是我整理的几个国产厂商模型的读入价格对比，均为百万token的人民币报价。你会发现国产“御三家”，也就是Kimi、GLM和Minimax都是20%上下，小米Mimo也是，Qwen便宜不少，是10%。但这些折扣，和Deepseek V4放到一起，就黯然失色。Deepseek V4 Flash是2%，而Deepseek V4 Pro竟然只有0.8%，只要是命中缓存，价格便宜到离谱！！！

表格1

今次Deepseek V4的发布，许多人觉得模型中庸，没有惊喜。

惊喜，或许就藏在缓存价格中。

Deepseek的缓存价格，不是从来那么便宜的。

特地查了一下去年V3.2发布时，缓存的价格是未命中缓存的10%，算便宜，但没那么离谱。

alt text

显然，Deepseek V4的技术上，有足够的突破，把缓存读入的成本打下来。

Reddit上有一篇帖子，对Deepseek几代模型的KV Cache做了一个分析，这或许是Deepseek V4缓存读入价格折扣巨大的原因——成本的确下降。

alt text

我只是大模型的普通用户，专业这块是不懂的，所以也只能看看Gemini Deepresearch的综述，它是如此概括：

在DeepSeek V4的架构下，处理被缓存的百万Token前缀，其在GPU算力核心上产生的实际浮点运算（FLOPs）趋近于零。供应商所需支出的成本，实际上仅剩下微小的PCIe传输能耗与硬盘折旧费。相较于传统GQA架构即使缓存也必须吃满HBM带宽的窘境，DeepSeek将I/O依赖转化为异步轻量操作。因此，向开发者收取$0.003625（仅为未命中成本的约0.83%）或Flash版本的$0.0028（2%），是在精准覆盖这层极薄的硬件传输成本后，依然具备商业毛利的必然结果。

那么这个技术优势如果未来被更多模型尤其是国产模型接纳，对整个硬件架构会有什么影响？

作为门外汉，依然是请Gemini 3.1 Pro的搜索和分析，仅供参考。

对国产算卡

国产芯片最大的痛点是显存带宽（HBM）和片间互联（类似 NVLink）不够强。V4 的 MLA 架构大幅压缩了 KV Cache 体积，在 attention 环节对 HBM 带宽的需求显著降低，这在一定程度上缓解了国产芯片的带宽劣势——虽然 FFN 和 MoE expert 调度等其他环节的带宽需求仍然存在。

据报道，DeepSeek V4 原生适配了华为 CANN 架构，在昇腾上的利用率从以往的 60% 左右提升到了 85% 以上。如果数据属实，这意味着在特定推理场景下，国产芯片与英伟达 A100/H100 的实际效能差距正在缩小。

对高端存储

HBM（高带宽显存）一直是 AI 芯片（如 NVIDIA H100/B200）最昂贵的组件。DeepSeek V4 大幅削减了 KV Cache 的体积，如果这一技术路线被广泛采用，对 HBM 容量和带宽的需求增速可能放缓。韩国（SK 海力士、三星）目前是 HBM 的绝对统治者。

换个角度看，KV Cache 从 HBM 向更低成本的存储层级迁移，或许会利好“大容量、通用型”的存储方案（SSD 和 DDR5 内存），国产存储厂商有机会从中受益。当然，HBM 的需求不只取决于 KV Cache，训练侧和其他推理环节仍是 HBM 的大户。

对光模块

DeepSeek V4 降低了单次推理对极致瞬时带宽的依赖，如果现有的 400G/800G 网络环境已能满足推理需求，那么向 1.6T 或 3.2T 超高速模块升级的紧迫感可能会被削弱。

另一方面，V4 采用的 Engram 架构将部分知识存放在 SSD 和内存中，推理时需要在“计算节点（GPU）”和“存储节点（SSD 阵列）”之间交换数据。这种计算与存储分离的架构（Disaggregated Architecture），反而可能创造新的机柜间光纤连接需求。

整体趋势或许是从追求“极速”转向更看重“极稳”与“高密度”。

是的，这些分析大多来自Gemini的搜索综述，我作为门外汉只能做粗线条的转述和判断，细节上一定有不够精确的地方。

但有一点我比较确定：当大家还在讨论Deepseek V4的跑分够不够惊艳时，它在架构层面对成本结构的重塑，或许才是更值得关注的变量。0.8%的缓存折扣不是营销噱头，背后是KV Cache体积实打实的压缩。这个变化如果沿着产业链往下传导——从HBM到存储，从光模块到算卡——影响不会小，只是需要时间显现。

标题里用了“尚待”两个字。坦率讲，多久能显现，我不知道。但价格信号往往是最诚实的，当缓存读入便宜到只剩零头的时候，硬件端的账迟早要重新算一遍。

对国产算卡#

对高端存储#

对光模块#

对国产算卡

对高端存储

对光模块