分享好友 最新动态首页 最新动态分类 切换频道
重磅!梁文锋通讯作者:DeepSeek斩获ACL 2025最佳论文,LLM注意力机制技术重大突破
2025-08-08 10:25

图:NSA架构概览,通过压缩、选择和滑动窗口三个并行分支处理信息

压缩注意力 (Compressed Attention): 将输入的Tokens(词元)分块并进行 粗粒度压缩,形成摘要或概要信息。这使得模型能以极低的成本快速扫描整个上下文,把握全局主旨

选择注意力 (Selected Attention): 基于全局扫描的结果,智能地 细粒度选择出最重要的信息块(Token Blocks)进行全量计算。这保证了模型不会错过关键细节

滑动窗口注意力 (Sliding Window Attention): 专注于处理与当前查询最邻近的局部上下文,确保对近期信息的精确捕捉

这三个分支的输出通过一个可学习的门控机制动态融合,使得NSA既有全局视野,又能进行局部聚焦,实现了全局感知(Global Awareness)与局部精度(Local Precision)的完美平衡

DeepSeek-AI在一个27B参数的先进MoE(Mixture-of-Experts)模型上对NSA进行了全面验证,并与标准的全注意力(Full Attention)模型进行了对比。结果令人震撼:

1. 性能超越全注意力: 尽管NSA是稀疏的,但在包括MMLU(知识)、GSM8K(推理)和LongBench(长文本)在内的多项通用和长文本基准测试中,NSA模型的平均性能全面超越了全注意力基线。这打破了稀疏必然导致性能损失的传统认知,证明了原生训练能让模型学会更高效地利用信息。

图片

2. 效率大幅领先: 在处理64k长度的序列时,NSA展现了惊人的加速效果:

解码速度提升高达 11.6倍
前向传播(训练/预填充)速度提升 9.0倍
反向传播(训练)速度提升 6.0倍

图片

这一巨大的效率优势贯穿了模型的整个生命周期,无论是训练、微调还是最终部署,都能节省大量的时间和计算资源。

3. 复杂推理能力更强: 在最具挑战性的数学推理任务(AIME)上,经过指令微调的NSA模型(NSA-R)在8k和16k的生成长度下,其性能均显著优于全注意力模型(Full Attention-R)。这表明NSA的稀疏设计能够更好地捕捉长距离的逻辑依赖,支持更深层次的复杂推理

DeepSeek的NSA研究,是继FlashAttention之后,在注意力机制领域的又一里程碑式突破。它不仅提出了一个优雅且高效的算法,更提供了一个经过实战检验、软硬协同的完整系统。

ACL 2025最佳论文的殊荣,是对DeepSeek-AI团队深厚的技术洞察力、卓越的工程实现能力以及敢于挑战底层核心问题的科研勇气的最高肯定

强烈期待DeepSeek V4 和 R2

最新文章
当保险人走进电视荧幕……
保险秘闻baoxianmiwen“只要三次偶遇,我就能让她闭着眼睛跟我买保险。”这是都市剧《蛮好的人生》女主角胡曼黎(孙俪 饰)对自己工作的“豪言壮语”。剧中胡曼黎爱情事业“两失误”,剧外的保险代理人也集体破防,直言行业被抹黑。从《故
鲸观察|宠物殡葬生意火了!猫狗葬礼价格可达上万,半年涌入逾千商家
图片来源:视觉中国蓝鲸新闻12月25日讯(记者 张静伦)为过世的英短花费四千元办了一场体面的葬礼,但猫咪的主人白彦认为很值,因为这只英短陪她度过了从上学到结婚的十二个年头。在宠物行业,养宠人更多地被称为“家长”,而不是“主人”
开盒可不是一般网暴!家长得给孩子打一剂“网络安全疫苗”
不知道做错了什么,却被莫名“开盒”,紧接着各种骚扰信息席卷而来……近日,多名网友发帖称,一名微博网友@妳的眼眸是世界上最小的湖泊(以下简称“眼眸”)自2024年以来,多次在饭圈“开盒”素人。今年3月上旬,“眼眸”参与对一名孕妇网
过年在北京?遛弯去!
这是一个对中国历代典籍、书刊进行发掘、抢救、复制、整理工作的地方。1956年以后,北京的私营古旧书店并入中国书店。鉴于古籍流传日益减少的情况,从1978年起,中国书店采用古老的木版刷印和胶版影印等方法,复制、印行古籍超过690万部册
17部电视剧网络剧列入重点作品版权保护预警名单
【17部电视剧网络剧列入重点作品版权保护预警名单】财联社1月28日电,国家版权局近日发布2025年度第二批重点作品版权保护预警名单,《》《北上》《》《国色芳华》等17部电视剧网络剧以及第9届亚洲冬季运动会相关赛事节目、中央广播电视总台
【硬件资讯】来看下AMD的游戏机处理器吧!全新廉价CPU性能超预期!4年过去了,PS6芯片也已完成设计??
AMD在CES 2025上推出了面向掌机的Ryzen Z2系列移动处理器,包括Ryzen Z2 Extreme、Ryzen Z2和Ryzen Z2 Go三款,这三个处理器用的完全不同架构的CPU和GPU,当中Ryzen Z2 Go是专门为联想而打造的,用在他们的LEGION GO S掌机上。Ryzen Z2 Go
文森特:心脏病让布朗尼对篮球更加珍视 这将磨练出强大的决心
直播吧7月30日讯 近日,湖人球员接受了ESPN的采访,谈到了布朗尼-詹姆斯的健康问题。两年前,布朗尼曾因先天性心脏缺陷导致心脏骤停,之后的手术在其胸部中央留下了一道6英寸(约合15厘米)长的疤痕。对此,文森特表示:“在他那么年轻的时
韩国频遭网络攻击暴露数字防御短板
韩国因高度数字化和科技产业发达成为黑客高价值目标,2025年以来几乎每月发生重大网络安全事件,暴露其网络防御体系的脆弱性。1月,GS Retail便利店网站遭攻击,约9万名客户信息泄露,包括姓名、出生日期、联系方式、地址和电子邮件。2月28
社交出海,“卷”与机遇并存
作者|乌塔编辑|刘景丰几个月前,一部日本短剧在TikTok上走红。一位日本普通职员在工作间隙给妻子打电话,言谈间脱口而出的流利中文,让一旁的同事目瞪口呆。这一意外展露的才华,瞬间激起了另一位女同事想要学习韩语的心,由此开启了她一
一周抽象创意大赏:《王者》《原神》《蛋仔》能有多抽象?《社死模拟器》还能更抽象!
《》1、创意数据:投放达人账号:臼子哥(jiu,第四声) 粉丝:15.8万预估曝光量:344.0k预估转化量:877累计投放:48 天类型:达人广告2、素材标题《一分钟讲完温迪背景故事》 #原神枫丹 #温迪 #原神 #想起旅行的意义了 #抽象3、媒体、渠
相关文章
推荐文章
发表评论
0评