从显存墙到计算解放:我是如何看清DeepSeek-V4这场算力变局的

2018年,刚入行做AIinfra的时候,团队最常讨论的问题只有一个:显存够不够用。彼时一张V100的16GB显存,支撑不住任何像样的Transformer模型,所有人都被迫在模型规模和硬件瓶颈之间反复拉扯。从显存墙到计算解放:我是如何看清DeepSeek-V4这场算力变局的 股票财经

七年后的今天,DeepSeek-V4登场了。它用Engram架构重新定义了显存与计算的关系,我意识到这场变局早已不是技术迭代那么简单。

那些年我们追过的算力焦虑

2022年ChatGPT引爆行业后,大模型军备竞赛进入白热化阶段。彼时的主流认知是:想做最强的模型,就必须堆最贵的GPU。英伟达的H100一度成为硬通货,国内厂商在出口管制下只能拿到阉割版的A800,差距被无限放大。

我亲眼见证过团队为了跑通一个百亿参数模型的训练,排队等了两周GPU资源。那种算力焦虑不是技术问题,而是生存问题——谁先跑出模型,谁就占据市场主动权。

DeepSeek-V4的解题思路:不是硬碰硬,而是重新定义规则

DeepSeek-V4的核心突破在于Engram架构。这个设计把模型中的静态知识从GPU显存里剥离出来,交给外部知识库处理。GPU只需专注逻辑计算,不必再被KVcache的记忆缓存占满。

具体来说,Engram实现了CPU与GPU的并行执行:当GPU处理当前token的逻辑运算时,CPU已经在后台检索下一个token所需的背景知识。这种流水线式的协作模式,将显存占用从80GB压缩至8GB,同时吞吐量呈几何级数提升。

这意味着什么?国产GPU即便在制程上落后英伟达1-2代,只要显存墙被打破,推理性能足以支撑复杂任务。

英伟达的护城河正在松动

客观来看,英伟达在训练侧的优势依然无可撼动。H100的HBM显存带宽和集群互联能力,短期内没有对手能够替代。但DeepSeek-V4的战略意图很清晰:大模型的胜负手已从训练转向推理。

当推理不再依赖极致显存容量,当成本可以通过软硬协同大幅压缩,英伟达的稀缺性逻辑就会面临重构。更值得关注的是,DeepSeek-V4并未按行业惯例给英伟达早期测试权限,而是将适配机会全部留给了华为和寒武纪。

投资方法论的三个关键变量

结合DeepSeek-V4的技术特性,我总结出三个影响后续投资决策的核心变量。其一,国产算力的商业化逻辑正从“自主可控”升级为“好用且必需”,华为、寒武纪等厂商的确定性进一步强化;其二,推理成本骤降将加速AI应用商业化,云服务和垂直应用赛道迎来边际改善;其三,CUDA生态的垄断格局首次出现实质性裂缝,生态迁移成本正在降低。

变局已至,悲观者看到冲击,乐观者看到机遇。对于深耕AI赛道的投资者而言,此刻需要做的不是预判胜负,而是跟踪变量、及时修正框架。DeepSeek-V4不是终点,而是新一轮洗牌的起点。