组织机构/年会活动: 中国交易银行50人论坛 中国产业数字金融50人论坛 中国供应链金融产业联盟中国供应链金融年会 中国司库年会 中国交易银行年会
首页 >> 快讯 >> 列表

DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA

时间: 2025-03-06 12:16:29 来源:   网友评论 0

218日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSANatively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。具体来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

[收藏] [打印] [关闭] [返回顶部]


分享到:
  •  验证码:
热点文章
中国贸易金融网,最大最专业的中文贸易金融平台