机器之心编译
作者:Sebastian Raschka
12 月 1 日,DeepSeek 一口气发布了两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
几天过去,热度依旧不减,解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读,其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

机器之心编译了这篇深度技术博客,以飨读者:

图 1:DeepSeek V3.2 与专有旗舰模型之间的基准测试对比。来自 DeepSeek V3.2 报告 并加上了注释。
我曾在文章《大型 LLM 架构对比》的开篇介绍过它的前身 ——DeepSeek V3。随着新架构的不断涌现,我在过去几个月里一直在持续更新那篇文章。
原本,我刚和家人度完感恩节假期回来,计划「只是」在原文章中增加一个新章节来简单介绍这次新发布的 DeepSeek V3.2。但随后我意识到,这次更新包含太多有趣的信息和细节,仅仅一个章节无法涵盖。因此,我决定将其写成一篇篇幅较长的独立文章。
他们的技术报告中涵盖了大量有趣的领域和值得学习的知识,让我们开始吧!
目录
1. DeepSeek 发布时间线
2. 混合推理模型与专用推理模型
3. 从 DeepSeek V3 到 V3.1
3.1 DeepSeek V3 概览与多头潜在注意力 (MLA)
3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)
3.3 DeepSeek R1-0528 版本升级
3.4 DeepSeek V3.1 混合推理
4. DeepSeek V3.2-Exp 与稀疏注意力机制
5. 采用自我验证与自我修正的 DeepSeekMath V2
5.1 自我验证
5.2 自我修正
6. DeepSeek V3.2 (2025 年 12 月 1 日)
6.1 DeepSeek V3.2 架构
6.2 强化学习更新
6.3 GRPO 更新
6.4 DeepSeek V3.2-Speciale 与扩展思维
7. 总结
1. DeepSeek 发布时间线
虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻引起轰动,但随后推出的 DeepSeek R1 推理模型(基于相同的架构,使用 DeepSeek V3 作为基础模型)改变了局面。它帮助 DeepSeek 成为了最受欢迎的开放权重模型之一,并成为了 OpenAI、Google、xAI 和 Anthropic 等公司专有模型的有力替代方案。

图 5:今年发布的部分推理模型和混合模型的时间线。
例如,Qwen3 最初是混合模型。但随后,Qwen 团队分别发布了独立的指令(Instruct)模型和推理(Reasoning)模型,因为这两种模型开发起来更容易,且在各自的用例中性能表现更好。
有些模型(如 OpenAI 的 gpt-oss)仅提供混合变体,用户可以通过系统提示词(System Prompt)选择推理力度(我怀疑 GPT-5 和 GPT-5.1 也是类似的处理方式)。
而在 DeepSeek 的案例中,他们似乎反其道而行之,从专用推理模型(R1)转向了混合模型(V3.1 和 V3.2)。不过,我怀疑 R1 主要是作为一个研究项目,旨在开发推理方法和验证当时最好的推理模型。V3.2 的发布可能更多是为了开发针对不同用例的最佳整体模型。(在这里,R1 更像是一个测试平台或原型模型。)
我也猜想,虽然 DeepSeek 团队开发了具有推理能力的 V3.1 和 V3.2,但他们可能仍在开发专门的 R2 模型。
3. 从 DeepSeek V3 到 V3.1
在更详细地讨论新的 DeepSeek V3.2 发布之前,我认为先概述一下从 V3 到 V3.1 的主要变化会很有帮助。
3.1 DeepSeek V3 概览与多头潜在注意力 (MLA)
我已经在其他几篇文章中非常详细地讨论了 DeepSeek V3 和 R1。
总结一下要点,DeepSeek V3 是一个基础模型,它使用了两个值得注意的架构特性:混合专家模型(MoE)和多头潜在注意力(MLA)。
我想你此时可能已经对 MoE 非常熟悉了,所以我这里跳过介绍。
另一个值得注意的亮点是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1,它提供了一种节省内存的策略,特别适合与 KV 缓存搭配使用。MLA 的核心思想是在将键(Key)和值(Value)张量存储到 KV 缓存之前,先将它们压缩到一个低维空间中。
在推理时,这些压缩的张量在使用前会被投影回其原始大小,如下图所示。这虽然增加了一次额外的矩阵乘法,但显著减少了内存使用。
(顺便提一下,查询 Query 也会被压缩,但仅在训练期间,推理期间不会。)

图 6:DeepSeek V3 和 R1 中的多头潜在注意力 (MLA)。为简单起见,未显示查询向量的压缩空间。
上图阐述了 MLA 背后的主要思想:键和值首先被投影到一个潜在向量中,该向量可以存储在 KV 缓存中以减少内存需求。这需要稍后进行向上投影(Up-projection)回到原始的键 - 值空间,但总体上它提高了效率(类比一下,你可以将其想象为 LoRA 中的降维和升维投影)。
顺便说一句,正如前面提到的,MLA 在 DeepSeek V3 中并不是新事物,因为它的前身 DeepSeek V2 也使用了(甚至引入了)它。
3.2 DeepSeek R1 概览与带可验证奖励的强化学习 (RLVR)
DeepSeek R1 使用了与上述 DeepSeek V3 相同的架构。区别在于训练配方。即,使用 DeepSeek V3 作为基础模型,DeepSeek R1 专注于「带可验证奖励的强化学习」(RLVR)方法,以提高模型的推理能力。
RLVR 的核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码(但这当然也可以扩展到这两个领域之外)。

图 8:LLM 训练中强化学习设置的比较。传统的带 PPO 的 RLHF 使用奖励模型(基于人类偏好训练)和评论家(价值模型)来指导学习。GRPO 取消了评论家模型。带 GRPO 的 RLVR 更进一步,移除了奖励模型,转而依赖来自符号工具(如计算器或编译器)的可验证奖励。
3.3 DeepSeek R1-0528 版本升级
正如 DeepSeek 团队自己所述,DeepSeek R1-0528 基本上是一个「小版本升级」。
架构与 DeepSeek V3/R1 保持一致,改进主要在训练方面,以使其达到当时 OpenAI o3 和 Gemini 2.5 Pro 的水平。
遗憾的是,DeepSeek 团队没有发布任何具体信息来描述这是如何实现的;然而,他们表示这部分源于后训练流程的优化。此外,根据已分享的信息,我认为该模型的托管版本在推理时可能会使用更多的计算资源(即进行更长时间的推理)。
3.4 DeepSeek V3.1 混合推理
DeepSeek V3.1 是一个兼具通用聊天(指令)和推理能力的混合模型。也就是说,不再开发两个独立的模型,而是现在有一个模型,用户可以通过聊天提示模板切换模式(类似于最初的 Qwen3 模型)。
DeepSeek V3.1 基于 DeepSeek V3.1-Base,而后者又基于 DeepSeek V3。它们都共享相同的架构。
4. DeepSeek V3.2-Exp 与稀疏注意力机制
DeepSeek V3.2-Exp (2025 年 9 月) 开始变得更有趣了。
最初,DeepSeek V3.2-Exp 在发布时并没有霸榜基准测试,这也是为什么当时围绕这个模型的兴奋度不高的原因。然而,正如我在九月份推测的那样,这很可能是一个早期的实验性发布,旨在为更大规模的发布准备基础设施(特别是推理和部署工具),因为 DeepSeek V3.2-Exp 中有一些架构上的变化。更大的发布是 DeepSeek V3.2(不是 V4),这一部分稍后会详细介绍。
那么,DeepSeek V3.2-Exp 有什么新东西?首先,DeepSeek V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作为基础模型训练的。什么是 DeepSeek V3.1-Terminus?它只是上一节提到的 DeepSeek V3.1 检查点的一个小幅改进版。
技术报告指出:
DeepSeek-V3.2-Exp,一个实验性的稀疏注意力模型,它通过持续训练为 DeepSeek-V3.1-Terminus 配备了 DeepSeek 稀疏注意力 (DSA)。凭借由 Lightning Indexer 驱动的细粒度稀疏注意力机制 DSA,DeepSeek-V3.2-Exp 在训练和推理方面都实现了显著的效率提升,特别是在长上下文场景中。
如上段所述,这里的主要创新是他们在对 DeepSeek V3.1-Terminus 进行进一步训练之前,添加了 DeepSeek 稀疏注意力 (DSA) 机制。
这个 DSA 由 (1) 一个 lightning indexer 和 (2) 一个 Token 选择器(token-selector)组成,目标是有选择地减少上下文以提高效率。
为了解释它是如何工作的,让我们从滑动窗口注意力开始。例如,滑动窗口注意力这种技术(最近被 Gemma 3 和 Olmo 3 使用)会将注意力窗口限制为固定大小,如下图所示。

图 9:在滑动窗口注意力中,当前的查询 Token 不关注所有之前的 Token,而只关注一个子集。
DSA 基于与滑动窗口注意力相同的想法:只能关注一部分过去的 Token。然而,DSA 不是通过固定宽度的滑动窗口来选择可关注的 Token,而是拥有一个索引器和 Token 选择器来决定哪些过去的 Token 可以被关注。换句话说,可被关注的 Token 选择更加随机,如下图所示。

图 12:通用的数学证明生成器 (LLM 1) 和验证器 (LLM 2) 设置。
验证器 LLM (LLM 2) 接收一个评分标准来对生成的证明进行评分,分数规则如下:
「1 分:完整且严谨的证明,所有逻辑步骤都有清晰的论证;」「0.5 分:证明整体逻辑合理,但有微小错误或遗漏细节;」「0 分:证明存在根本性缺陷,包含致命的逻辑错误或关键缺失。」对于证明验证器模型,他们从 DeepSeek V3.2-Exp-SFT 开始,这是他们基于 DeepSeek V3.2-Exp 通过在推理数据(数学和代码)上进行监督微调而创建的模型。然后,他们使用格式奖励(检查解决方案是否符合预期格式)和基于预测分数与实际分数(由人类数学专家标注)接近程度的分数奖励,对该模型进行进一步的强化学习训练。
证明验证器 (LLM 2) 的目标是检查生成的证明 (LLM 1),但谁来检查证明验证器呢?为了使证明验证器更加稳健并防止其产生幻觉问题,他们开发了第三个 LLM,即元验证器(Meta-verifier)。

图 15:使用独立验证器 LLM (LLM 2) 的自我修正。
然而,在实践中,与图 15 不同的是,DeepSeek 团队使用的生成器和验证器 LLM 与图 14 中的经典自我修正循环是同一个:
「所有实验都使用了一个单一模型,即我们的最终证明生成器,它同时执行证明生成和验证。」
换句话说,独立的验证器对于训练是必不可少的——可用于改进生成器,但在生成器足够强大之后,在推理期间就不再使用(或不需要)它了。与简单的单模型自我修正的关键区别在于,最终的证明者是在更强大的验证器和元验证器的指导下训练出来的,因此它学会了将这些评分标准应用于自己的输出。
此外,在推理期间使用这种合二为一的 DeepSeekMath V2 验证器在资源和成本方面也是有利的,因为它比运行第二个 LLM 进行证明验证增加了更少的复杂性和计算需求。
回到图 14 和 15 中展示的一般自我修正概念,这两张图都显示了 2 次迭代的自我修正(初始迭代和修正后的答案)。当然,我们可以向此过程添加更多迭代。这是一个经典的推理扩展权衡:我们添加的迭代越多,生成答案的成本就越高,但整体准确性也会越高。
在论文中,DeepSeek 团队使用了多达 8 次迭代,看起来准确性尚未饱和。

图 17:DeepSeek V3.2 与专有旗舰模型之间的基准测试对比。来自 DeepSeek V3.2 报告,并加上了注释。
与 DeepSeek 的其他几款模型类似,V3.2 也附带了一份很棒的技术报告,我将在接下来的章节中进行讨论。
6.1 DeepSeek V3.2 架构
当然,该模型的主要动机是提高整体模型性能。例如,像 DeepSeekMath V2 一样,它在数学基准测试中获得了金牌级的表现。然而,该模型在训练时也考虑到了工具的使用,并且在其他任务(例如代码和智能体任务)上也表现良好。
同时,DeepSeek 团队将计算效率视为一个巨大的驱动因素。这就是为什么他们使用了 V2 和 V3 中的多头潜在注意力 (MLA) 机制,以及他们在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 机制。事实上,论文中提到「DeepSeek-V3.2 使用了与 DeepSeek-V3.2-Exp 完全相同的架构」,这我们在前面的章节中已经讨论过了。

图 18:DeepSeek V3.2 架构。
正如我之前提到的,DeepSeek V3.2-Exp 的发布很可能是为了让生态系统和推理基础设施准备好托管刚刚发布的 V3.2 模型。

图 19:由 DeepSeek 稀疏注意力 (DSA) 实现的推理成本节省。来自 DeepSeek V3.2 报告,并加上了带注释。
由于架构与 DeepSeek V3.2-Exp 相同,有趣的细节在于训练方法,我们将在接下来的章节中讨论。
6.2 强化学习更新
总的来说,DeepSeek 团队采用了类似于 DeepSeek R1 的「带可验证奖励的强化学习」(RLVR)程序,使用了群体相对策略优化(GRPO)算法。但是,有一些有趣的更新值得讨论。
最初,DeepSeek R1 使用了:
格式奖励(确保答案格式正确);语言一致性奖励(确保模型在编写回复时不会在不同语言之间切换);主要的验证者奖励(数学或代码问题中的答案是否正确)。对于 DeepSeek V3.2,他们更改了奖励:
对于推理和智能体任务,我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务,我们采用生成式奖励模型,其中每个提示都有自己的评估标准。
例如,他们移除了格式奖励,但为智能体任务添加了长度惩罚。然后,对于没有符号验证器(数学)或代码解释器来验证答案的通用任务,他们使用奖励模型(另一个训练用于输出奖励分数的 LLM)。
所以,听起来这个流程不再是像 DeepSeek R1 那样纯粹的基于验证器的 RLVR,而是 RLVR(用于可验证领域)和更标准的「LLM 即裁判」奖励建模(用于其他所有领域)的混合体。
对于数学领域,他们表示额外「整合了来自 DeepSeekMath-V2 的数据集和奖励方法」,这我们在本文前面已经讨论过了。
6.3 GRPO 更新
关于 RLVR 流程内部的学习算法 GRPO 本身,自 DeepSeek R1 论文中的原始版本以来,他们也做了一些更改。
在过去的几个月里,数十篇论文提出了对 GRPO 的修改建议,以提高其稳定性和效率。
如果不深入 GRPO 的数学细节,简单来说,DAPO 修改了 GRPO,采用了非对称裁剪、动态采样、Token 级损失和显式的基于长度的奖励整形。Dr. GRPO 更改了 GRPO 目标本身,以移除长度和标准差归一化。
最近的 Olmo 3 论文也采用了类似的变更,我引用如下:
零梯度信号过滤: 我们移除奖励完全相同的实例组(即优势标准差为零的批次),以避免在提供零梯度的样本上进行训练,类似于 DAPO (Yu et al., 2025)。[DAPO]主动采样: 尽管进行了零梯度过滤,我们仍使用一种新颖、更高效的动态采样版本维持一致的批次大小 (Yu et al., 2025)。详见 OlmoRL Infra。[DAPO]Token 级损失: 我们使用 Token 级损失,通过批次中的 Token 总数进行归一化 (Yu et al., 2025),而不是按样本归一化,以避免长度偏差。[DAPO]无 KL 损失: 作为一种常见做法,我们移除了 KL 损失 (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b),因为它允许更少限制的策略更新,并且移除它不会导致过度优化或训练不稳定。[DAPO 和 Dr. GRPO]更高裁剪阈值: 我们将损失中的上限裁剪项设置为比下限略高的值,以允许对 Token 进行更大的更新,正如 Yu et al. (2025) 提议的那样。[DAPO]截断重要性采样: 为了调整推理引擎和训练引擎之间对数概率的差异,我们将损失乘以截断的重要性采样比率,遵循 Yao et al. (2025)。无标准差归一化: 在计算优势时,我们不对组的标准差进行归一化,遵循 Liu et al. (2025b)。这消除了难度偏差,即奖励标准差低的问题(例如太难或太容易)其优势会被归一化项显著放大。[Dr. GRPO]DeepSeek V3.2 中的 GRPO 修改稍微不那么激进,我用类似于 Olmo 3 的风格总结如下:
特定领域的 KL 强度(包括数学为零): DeepSeek V3.2 没有像 DAPO 和 Dr. GRPO 那样对数学类 RL 总是放弃 KL,而是在目标中保留 KL 项,但根据每个领域调整其权重。然而,他们也指出,非常弱甚至为零的 KL 通常对数学效果最好。(但不是完全移除它,而是变成了一个超参数。)无偏 KL 估计: 如上所述,DeepSeek V3.2 没有移除 KL 惩罚。除了将其视为调节旋钮外,他们还提出了对 GRPO 中 KL 惩罚估计方式的修正,即用用于主损失的相同重要性比率重新加权 KL 项,因此 KL 梯度实际上与样本来自旧策略而不是当前策略的事实相匹配。异策略序列掩码(Off-policy sequence masking): 当他们在许多梯度步骤中重用 rollout 数据(rollout 只是模型生成的完整序列的术语)时,DeepSeek V3.2 测量当前策略在每个完整答案上偏离 rollout 策略的程度,并简单地丢弃那些既具有负优势又「过于偏离策略」的序列。因此,这防止了模型从过度偏离策略或陈旧的数据中学习。保留 MoE 模型的路由: 对于混合专家骨干网络,他们记录了 rollout 期间激活了哪些专家,并在训练期间强制使用相同的路由模式,以便梯度更新针对那些产生采样答案的专家。保留 top-p /top-k 的采样掩码: 当 rollout 使用 top-p 或 top-k 采样时,DeepSeek V3.2 存储选择掩码并在计算 GRPO 损失和 KL 时重新应用它,以便训练时的动作空间与采样期间实际可用的动作空间相匹配。保留原始 GRPO 优势归一化: Dr. GRPO 表明 GRPO 的长度和每组标准差归一化项会使优化偏向于过长的错误答案,并过度加权非常容易或非常难的问题。Dr. GRPO 通过移除这两个项并回到无偏的 PPO 风格目标来解决这个问题。相比之下,DAPO 转向 Token 级损失,这也改变了长答案与短答案的加权方式。然而,DeepSeek V3.2 保留了原始的 GRPO 归一化,而是专注于其他修正,例如上面的那些。所以,总的来说,DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法,但增加了一些逻辑上的微调。
6.4 DeepSeek V3.2-Speciale 与扩展思维
DeepSeek V3.2 还有一个极端的、扩展思维(extended-thinking)的变体,称为 DeepSeek V3.2-Speciale,它在 RL 阶段仅在推理数据上进行训练(更类似于 DeepSeek R1)。除了仅在推理数据上训练外,他们还在 RL 期间减少了长度惩罚,允许模型输出更长的响应。
生成更长的响应是一种推理扩展形式,为了获得更好的结果,响应因长度增加而变得更加昂贵。

图 20:扩展思维的 Speciale 模型实现了更高的准确性,但也生成了更多的 Token。
7. 总结
在这篇文章中,我没有涵盖 DeepSeek V3.2 训练方法的所有细节,但我希望与之前的 DeepSeek 模型的比较有助于阐明主要观点和创新。
简而言之,有趣的要点是:
DeepSeek V3.2 使用了自 DeepSeek V3 以来与其所有前身相似的架构;主要的架构调整是他们添加了来自 DeepSeek V3.2-Exp 的稀疏注意力机制以提高效率;为了提高数学性能,他们采用了来自 DeepSeekMath V2 的自我验证方法;训练流程有几项改进,例如 GRPO 稳定性更新(注意论文还涉及围绕蒸馏、长上下文训练、集成类似于 gpt-oss 的工具使用等其他几个方面,我们在本文中没有涵盖)。无论 DeepSeek 模型与其他较小的开放权重模型或像 GPT-5.1 或 Gemini 3.0 Pro 这样的专有模型相比的市场份额如何,有一件事是肯定的:DeepSeek 的发布总是很有趣,而且从随开放权重模型检查点一起发布的技术报告中总有很多值得学习的东西。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263550 电子证书1157 电子名片68 自媒体91237