DeepSeek团队推出新论文：可原生训练的稀疏注意力机制显著提升大模型训练效率

时间：2025-02-20 03:20

小编：小世评选

近日，DeepSeek团队发布了一项新的研究论文，提出了一种极具创新意义的稀疏注意力机制，这一机制被命名为“原生稀疏注意力”（Native Sparse Attention）。该研究的核心在于解决当前大模型在上下文建模中面临的计算成本高昂的问题，尤其是在训练大型神经网络时，传统的全注意力机制导致了高达70%-80%的延迟，这极大地影响了模型的训练和推理效率。

在实验中，DeepSeek团队通过多次对比实验验证了其稀疏注意力机制的优越性。研究发现，即使在解码64k的较长上下文时，引入稀疏注意力后，模型在前向传播和反向传播过程中均表现出了显著的加速效果，且没有对模型性能产生负面影响。这一成果不仅为大规模模型的训练提供了新的思路，还展现了DeepSeek团队在优化计算效率方面的深入探索。

DeepSeek团队成员之一、论文的主作者梁文锋在文章发布后备受关注。许多业内人士对此发表了赞赏，其中不乏像OpenAI ViT核心作者Lucas Beyer这样的业界大牛，他表示对DeepSeek所取得的突破赞叹不已，称其“粉了粉了”。这未免揭示了深度学习领域内的一个重要趋势：对于模型训练效率的重视程度日益提升，技术的创新也在不断推动这一领域向前发展。

该论文的核心方法主要包括动态分层稀疏策略，这一策略的关键在于用更紧凑的键值对替代传统注意力机制中的原始键值对。通过多种映射策略，包括压缩、选择和滑动窗口，获得了优化的注意力输出，保持了高效的稀疏率。在整体框架设计上，这种分层结构不仅降低了计算需求，也有效避免了信息的丢失，使模型在处理长序列时能够高效而准确。

在算法设计层面，DeepSeek引入了一种将连续Token聚合成块级表示的方法，旨在捕获长距离的全局语义信息，并减少注意力计算的负担。通过这种方式，模型能够选择出最重要的Token，从而保留关键的局部信息，避免局部模式过度主导学习过程。这一创新使得模型在面对复杂长上下文推理任务时，展现出更优的性能。

在实现这些创新的过程中，DeepSeek团队强调了两个关键技术点。是硬件对齐系统，针对模型的张量核心利用率和内存访问进行了优化，使得块级稀疏注意力能够在算术强度上达到均衡。其次是训练感知设计，通过高效算法和向后运算符实现了稳定的端到端训练。在27B参数规模的模型测试中，研究者们发现，所提出的稀疏注意力机制在预训练损失方面表现出良好的收敛性，并取得了更低的损失值。

在多个通用基准测试中，基于这个机制的模型不仅没有降低性能，反而在诸多知识、推理和编码能力的指标上超越了采用全注意力机制的模型。例如，在推理任务“DROP”及其它需要复杂长上下文推理的任务中，模型的表现都相较于全注意力模型有显著提升。在思维链推理评估中，经过知识蒸馏与监督微调后，在8k与16k上下文设置下，所有得分均突破了全注意力模型的得分线。

有趣的是，在马斯克推出Grok 3这样的大模型并声称其采用了庞大的计算基础设施后，业内关于大模型训练的思考又一次掀起波澜。而DeepSeek所引领的“效能派”为这一讨论增添了新的视角。用更高效、更本地化的方式进行模型训练，显得尤为重要。从这一点上来看，DeepSeek的研究不仅关注当下的技术改进，更为人工智能的未来发展提供了深远的启示。

通过此次研究，DeepSeek团队为AI的发展开辟了新的道路，他们的成果表明，通向通用人工智能（AGI）的道路可以是高效而可及的。未来，基于原生稀疏注意力机制的应用可能会在更多的 AI 任务中取得突破，推动技术不断向前发展。

论文链接：

[DeepSeek论文](https://arxiv.org/abs/2502.11089)

这一新兴的“国产之光”将在未来的AI竞争中占据越来越重要的位置。未来将会是谁担当这一重任，值得我们持续关注！

DeepSeek团队推出新论文：可原生训练的稀疏注意力机制显著提升大模型训练效率

精品推荐

相关文章