图:NSA架构概览,通过压缩、选择和滑动窗口三个并行分支处理信息
压缩注意力 (Compressed Attention): 将输入的Tokens(词元)分块并进行 粗粒度压缩,形成摘要或概要信息。这使得模型能以极低的成本快速扫描整个上下文,把握全局主旨
选择注意力 (Selected Attention): 基于全局扫描的结果,智能地 细粒度选择出最重要的信息块(Token Blocks)进行全量计算。这保证了模型不会错过关键细节
滑动窗口注意力 (Sliding Window Attention): 专注于处理与当前查询最邻近的局部上下文,确保对近期信息的精确捕捉
这三个分支的输出通过一个可学习的门控机制动态融合,使得NSA既有全局视野,又能进行局部聚焦,实现了全局感知(Global Awareness)与局部精度(Local Precision)的完美平衡
DeepSeek-AI在一个27B参数的先进MoE(Mixture-of-Experts)模型上对NSA进行了全面验证,并与标准的全注意力(Full Attention)模型进行了对比。结果令人震撼:
1. 性能超越全注意力: 尽管NSA是稀疏的,但在包括MMLU(知识)、GSM8K(推理)和LongBench(长文本)在内的多项通用和长文本基准测试中,NSA模型的平均性能全面超越了全注意力基线。这打破了稀疏必然导致性能损失的传统认知,证明了原生训练能让模型学会更高效地利用信息。
2. 效率大幅领先: 在处理64k长度的序列时,NSA展现了惊人的加速效果:
解码速度提升高达 11.6倍
前向传播(训练/预填充)速度提升 9.0倍
反向传播(训练)速度提升 6.0倍
这一巨大的效率优势贯穿了模型的整个生命周期,无论是训练、微调还是最终部署,都能节省大量的时间和计算资源。
3. 复杂推理能力更强: 在最具挑战性的数学推理任务(AIME)上,经过指令微调的NSA模型(NSA-R)在8k和16k的生成长度下,其性能均显著优于全注意力模型(Full Attention-R)。这表明NSA的稀疏设计能够更好地捕捉长距离的逻辑依赖,支持更深层次的复杂推理
DeepSeek的NSA研究,是继FlashAttention之后,在注意力机制领域的又一里程碑式突破。它不仅提出了一个优雅且高效的算法,更提供了一个经过实战检验、软硬协同的完整系统。
ACL 2025最佳论文的殊荣,是对DeepSeek-AI团队深厚的技术洞察力、卓越的工程实现能力以及敢于挑战底层核心问题的科研勇气的最高肯定
强烈期待DeepSeek V4 和 R2