分享好友 最新动态首页 最新动态分类 切换频道
重磅!梁文锋通讯作者:DeepSeek斩获ACL 2025最佳论文,LLM注意力机制技术重大突破
2025-08-08 10:25

图:NSA架构概览,通过压缩、选择和滑动窗口三个并行分支处理信息

压缩注意力 (Compressed Attention): 将输入的Tokens(词元)分块并进行 粗粒度压缩,形成摘要或概要信息。这使得模型能以极低的成本快速扫描整个上下文,把握全局主旨

选择注意力 (Selected Attention): 基于全局扫描的结果,智能地 细粒度选择出最重要的信息块(Token Blocks)进行全量计算。这保证了模型不会错过关键细节

滑动窗口注意力 (Sliding Window Attention): 专注于处理与当前查询最邻近的局部上下文,确保对近期信息的精确捕捉

这三个分支的输出通过一个可学习的门控机制动态融合,使得NSA既有全局视野,又能进行局部聚焦,实现了全局感知(Global Awareness)与局部精度(Local Precision)的完美平衡

DeepSeek-AI在一个27B参数的先进MoE(Mixture-of-Experts)模型上对NSA进行了全面验证,并与标准的全注意力(Full Attention)模型进行了对比。结果令人震撼:

1. 性能超越全注意力: 尽管NSA是稀疏的,但在包括MMLU(知识)、GSM8K(推理)和LongBench(长文本)在内的多项通用和长文本基准测试中,NSA模型的平均性能全面超越了全注意力基线。这打破了稀疏必然导致性能损失的传统认知,证明了原生训练能让模型学会更高效地利用信息。

图片

2. 效率大幅领先: 在处理64k长度的序列时,NSA展现了惊人的加速效果:

解码速度提升高达 11.6倍
前向传播(训练/预填充)速度提升 9.0倍
反向传播(训练)速度提升 6.0倍

图片

这一巨大的效率优势贯穿了模型的整个生命周期,无论是训练、微调还是最终部署,都能节省大量的时间和计算资源。

3. 复杂推理能力更强: 在最具挑战性的数学推理任务(AIME)上,经过指令微调的NSA模型(NSA-R)在8k和16k的生成长度下,其性能均显著优于全注意力模型(Full Attention-R)。这表明NSA的稀疏设计能够更好地捕捉长距离的逻辑依赖,支持更深层次的复杂推理

DeepSeek的NSA研究,是继FlashAttention之后,在注意力机制领域的又一里程碑式突破。它不仅提出了一个优雅且高效的算法,更提供了一个经过实战检验、软硬协同的完整系统。

ACL 2025最佳论文的殊荣,是对DeepSeek-AI团队深厚的技术洞察力、卓越的工程实现能力以及敢于挑战底层核心问题的科研勇气的最高肯定

强烈期待DeepSeek V4 和 R2

最新文章
从常州出发去乐山大佛,怎么买票最划算?2025必看门票攻略+避坑秘籍
常州至四川旅游攻略:五日深度游预算详解 Day 1:常州出发,抵达成都 Day 2:成都熊猫基地宽窄巷子 Day 3:都江堰青城山 Day 4:乐山大佛峨眉山 Day 5:成都自由行返程 如果你们向往四川的自然美景和深厚文化,并且需要专业的指导与建议,请不要
游戏平台的ICP许可证书申办
游戏网站的ICP许可证申请办理?游戏平台的ICP许可证书申办?ICP许可证书是升值电信业务许可证的一种,业务流程类型是第二类升值电信业务中的互联网信息服务项目业务流程,此证书有全国各地和地区之分,要想申请办理ICP证只必须到企业注册地
周鸿祎透露360硬件动作:将发布录音笔和智能眼镜
多知7月25日消息,“2025(第二十四届)中国互联网大会”于7月23日-25日在北京举行。会上,360公司董事长周鸿祎对表示,360将发布两款AI硬件,包括AI录音笔和智能眼镜。其中:周鸿祎表示360的录音笔将不会是简单的会议转写,而是智能分析在不
重磅!梁文锋通讯作者:DeepSeek斩获ACL 2025最佳论文,LLM注意力机制技术重大突破
图:NSA架构概览,通过压缩、选择和滑动窗口三个并行分支处理信息压缩注意力 (Compressed Attention): 将输入的Tokens(词元)分块并进行 粗粒度压缩,形成摘要或概要信息。这使得模型能以极低的成本快速扫描整个上下文,把握全局主旨选择
安全一“夏”丨竞答有奖 2025暑期中小学安全知识有奖周周测第三期等你来参与!
齐鲁网·闪电新闻8月4日讯 为进一步加强中小学生暑期安全教育,掀起中小学生安全知识学习热潮,提高学生安全防范意识和自救自护能力,闪电新闻特别策划推出“安全一‘夏’——2025暑期中小学安全知识有奖周周测”,自7月18日至8月31日,连
实务 | 私募股权投资机构参与非上市企业治理的方式与法律边界
1、一票否决权的分类投资方是否享有一票否决权及其具体适用范围,主要取决于其与公司的谈判地位,具体表现为以下两种形式:董事会层面的一票否决权:由投资方委派的董事(如有)在董事会会议中行使;股东会层面的一票否决权:由投资方作为
ChinaJoy2025拯点不一样,人气Coser助力,拯救者展台盛况空前
[2025年8月1日至4日,全球数字娱乐盛宴ChinaJoy在上海新国际博览中心盛大启幕。作为全球硬件领域的创新先锋,联想拯救者以“超能集结·热AI制霸”为主题,携旗下多款AMD处理器产品及前沿技术空降E7馆S001展台,打造了一场集硬核性能、AI生
沈阳回收报废线路板 收购废弃电路板 电子元器件回收
沈阳邦豫再生资源回收公司长期提供废旧电子类收购:.旧电子、库存电子元件、电子元器件、电子脚.集成电路、IC块、芯片、二极管、三极管、模块、电容、电阻、等(好坏收购)各种电子废弃物例如:电子及电器设备: 电源、锂电池收购|镍隔电池
厦门到恩施土家女儿城个人游_怎么玩不踩坑_2025必看攻略_避坑指南
厦门到恩施土家女儿城个人游_怎么玩不踩坑_2025必看攻略_避坑指南(2025年5月10日我从厦门出发,一个人去恩施土家女儿城玩,结果差点被累死,)(厦门到恩施土家女儿城的个人游是一次充满文化体验的旅程。你可乘坐飞机从厦门直飞宜昌,再转
上海守护进行时:交通保畅、隐患排查、人员安置撑起安全伞
在青浦区海盈路一处易积水点,管道养护人员对雨水井及管道进行了雨前清捞疏通,以消除冒溢风险。“我们组建了8支区级突击队,配备了9辆大型移动泵车,整体排水量达到了每小时2.24万立方米,主要保障城区易积水点和国家会展中心等重点保障区
相关文章
推荐文章
发表评论
0评