DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

NSA 的核心组件包括:

  • 动态分层稀疏策略

  • 粗粒度 token 压缩

  • 细粒度 token 选择

DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

IT之家附论文链接:

https://arxiv.org/abs/2502.11089

免责声明:文章内容来自IT之家

本站不对其内容的真实性、完整性、准确性给予任何担保、明示、暗示和承诺,本文仅供读者参考!

数码迷尊重原作者的辛勤劳动并致力于保护原著版权以及相关的知识产权,所转载的文章,其版权归原作者所有。

如本文内容影响到您的合法权益(内容、图片等),请通过邮箱5937331#qq.com联系我们,我们将第一时间回复处理。

(0)
上一篇 2025年2月19日 上午9:02
下一篇 2025年2月19日 上午9:02

相关推荐