DeepSeek会让你过个开心年吗？

loaf2026/1/11大约 7 分钟

这两天网上疯传DeepSeek要发布新模型了。

最初的来源是theinformation.com，他们引述知情人员报道，DeepSeek预计将会在二月中旬发布DeepSeek V4。

好嘛，二月中旬，2月16日可是除夕夜啊。看来DeepSeek是想让我们过年也不得安生啊。：）

报道说，根据DeepSeek员工的内部基准测试显示，该模型在编码任务上的表现，超越了当前行业领先的闭源模型，包括 OpenAI GPT 系列和 Anthropic Claude。

推测一下V4采用的关键技术与功能

1. 稀疏注意力：从DSA向NSA进化

首先，DeepSeek V3.2 Exp发布时，提到了V3.2版本是在V3.1-Terminus版本的基础上引入了DSA( DeepSeek Sparse Attention）^[1]，DeepSeek声称DSA首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提升了长上下文训练和推理效率。

而在更早一点的2月份，DeepSeek和北大合作发布了一篇论文《Hardware‑Aligned and Natively Trainable Sparse Attention》^[2]。这篇论文在25年8月得到第 63 届国际计算语言学协会年会（ACL 2025）的最佳论文奖。

合理的推测是：

V4 的注意力核心 = NSA（作为底层稀疏框架） + DSA（更精细的 token 选择策略）

什么是稀疏注意力？

传统上，大模型在处理文件时，肯定需要兼顾上下文，比如大模型在和你交谈时，总不能说到后面就忘记前面了吧。所以模型总是要将前面谈到的内容重新再加到对话中。这也是为什么在早期的ChatGPT版本中，随着对话的持续，越到后面，哪怕是一个简单的回答，都会消耗大量的Token。

这种情况下，模型处理长文本时，会成本高昂。你想让它给你分析一本书，Toekn消耗会让你肉疼，而且处理过程也极其缓慢——让你肉疼的时间更长。

2019年OpenAI提出了稀疏注意力模式。核心思想是 “只看重点，忽略冗余”。它不再让当前 token 与过去所有的 token 建立连接，而是通过特定算法只挑选出最相关的一小部分信息进行计算。

当然实现方法有很多，上面提到的DSA和NSA就是两种代表性的稀疏注意力技术。

DSA是DeepSeek的算法，就是在推理的同时，用一个命名为“Lightning Indexer”的组件对前面的Token打分，得分最高的若干个（比如可选择2048个）Token可以作为重点代入到上下文中处理，根据实验，这种方法在保证质量的情况下，将长文本的推理成本降低了6~7倍。

NSA又是一种新技术，简单说就是采用动态分层稀疏策略，和人类读书一样，先通过目录和前言看看大概内容，然后再关注重点，对这些重点内容反复精读。其核心是一个三路并行的注意力架构：

上面的滑动窗口注意力相当于精读当前文字，而令牌压缩注意力就是在快速通览全文，至于令牌选择注意力就是找到值得精读的部分。

尤为难得的是，这两个技术都强调 “硬件对齐”，即它的计算逻辑是专门根据GPU或国产芯片的内存访问模式设计的。

2. 使用mHC架构提升模型训练的稳定性

mHC在上一篇文章中已经讨论过了。上篇文章中也已经谈过mHC是什么以及它是怎么增加训练过程的稳定性和表达力的。这里就不再重复。

结合 DeepSeek 最近在博客^[3]中提到“这可能会成为下一代架构的地基”，以及 R1 论文更新版^[4]中对训练失败案例、稳定性探索的长篇补充。很有理由认为：

V4 在 block 级结构上会采用 mHC 架构，在 MoE + 稀疏注意力外，再通过 mHC 提升极深网络的稳定性和表达力。

3. 多种技术使模型有更强的“自我学习”能力

这不得不提到DeepSeek最近一个骚操作，他们将原来在1月份发布的R1论文，做了一个补充。原来的论文是2025年1月份发表的，有22页。然后在2026年的1月，DeepSeek将论文扩充到了86页。近乎做了一次重写。不仅将其技术思路展示了，还提供了具体完整可复现的技术细节。我看他们简直成了“开源圣人”。

从这篇补充的R1论文中，我们看到他们证实了，纯强化学习（也就是说，不需要人工标注，不需要人类写思维链）也能内生出复杂的推理能力。同时也披露了纯强化学习的范式也可能扩展到视觉、代码等多领域。这就是说，使用合适的方法和技巧，大模型是可以自己进化的。

同时，在上面提到v3.2-Exp的开源 ^[5] 中也提到了GRPO技术。

GRPO（组相对策略优化）是DeepSeek v3.2推理模型的核心强化学习算法，它通过分组比较和简化奖励机制，让模型能够“自学”复杂的推理任务。

我们能看到上面多篇论文都提到了大模型的“自我学习”、“自我进化”的能力和可能性。

所以合理的猜测是

V4 会用 R1 式 RL 框架 + 升级版 GRPO 把“思考过程”自动化。

V4会不会支持多模态

从技术上看，NSA和DSA都是支持多模态的，从公开的算法来看，它们对于Token到底是文字还是图片都没有什么影响。

而且mHC解决的是“多流信息的稳定混合”，似乎更适合多模态。

再加上前面也提到过DeepSeek在25年下半年发布的论文DeepSeek OCR，好像也与图像有关。

但是目前所有的公开的或者传言的消息都没有提到V4有多模态能力。

我的推测是V4版本不支持多模态，原因是近期并没有DeepSeek关于图像处理或者音频处理的论文传出，看起来他们技术重心不在于此。但是V4的技术底座是支持多模态的。也许以后会做这一块内容。

V4会是在国产芯片上训练的吗？

个人觉得可能性很大。

首先， V3.2-Exp的版本就已经做到了“国产芯片适配”。官方明确提到它的代码直接支持华为Ascend。

其次，DeepSeek官方在 V3.1时就公开表示会以FP8（尤其是UE8M0）格式发布。而UE8M0格式就是针对国产芯片设计的。

FP8格式可以简单理解为用更少的内存记录一个数。比如说要保存数字1，你可以用16位保存，就是“0000000000000001”，前面有15个是0，也可以用8位保存，就是“00000001”，前面只有7个0。当然，这样的话，精度会减少，但是这可以用算法解决，但显存占用降低75%可是实打实的硬件节省啊。

再加上最近各种新闻都是说他们与华为的合作，DeepSeek的新模型肯定是原生适配国产芯片的，具体到是否全部在国产芯片上训练出来就不得而知了。真希望他们在发布时能公开宣称这一点啊。

但是有一点，V4的推理侧百分百支持国产芯片是可以肯定的。

最后，希望DeepSeek让我们过一个开心年。能用国产硬件加上天才般的创新，构建一个强大的模型。