DeepSeek上新!处理长文本更高性价比,国产技术协同加强

次浏览

摘要:21世纪经济报道记者 陈归辞9月29日,DeepSeek-V3.2-Exp模型正式发布。V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的

21世纪经济报道记者 陈归辞

9月29日,DeepSeek-V3.2-Exp模型正式发布。

V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention (一种稀疏注意力机制,DSA),针对长文本的训练和推理效率进行了探索性的优化和验证。

DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中,注意力机制是一个核心组件,决定了模型如何在文本序列中聚焦关键信息,实现语义理解与生成。

简单对比来看,在Transformer架构中,传统的注意力机制是“稠密的”,处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案,更高效,成本也更低。

得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调50%以上。

除技术创新与价格“腰斩”外, DeepSeek此次开源TileLang版本算子,同样引发业内高度关注。

实验版本

当日更早时候,有不少业内人士注意到,DeepSeek将 v3.2-base 上传至DeepSeek在社区平台HuggingFace的官方页面,但很快被删除。此后,DeepSeek正式公告新版本DeepSeek-V3.2-Exp的推出。

作为一款实验版本,DeepSeek认识到“新模型仍需在更广泛的用户真实场景中进行大规模测试,以排除在某些场景下效果欠佳的可能”。

为方便用户进行对比测试,DeepSeek为此前发布的V3.1-Terminus临时保留了额外的API访问接口,将开放至10月15日,调用价格与V3.2-Exp一致。

DeepSeek 现已将 DeepSeek-V3.2-Exp模型在 Huggingface 和 ModelScope 平台上全面开源,相关论文也已同步公开。

稀疏注意力机制

随着模型的发展,长文本处理需求日益增长。

根据业内分析,传统的Transformer全连接注意力机制,虽然在模型效果上表现出色,但其“稠密的”注意力机制使得计算复杂度随着文本长度增加,计算量呈指数级增长。这使得在处理长文本时,模型面临巨大的计算资源压力,训练时间被大幅拉长,推理速度也难以满足实时性需求。

针对长文本处理的主要计算瓶颈,DeepSeek Sparse Attention(DSA)首次实现细粒度稀疏注意力机制。

DSA机制能够自适应地选择关键注意力头与局部上下文窗口。简单对比来看,在Transformer架构中,传统的注意力机制是“稠密的”,处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案,更高效,成本也更低。

通过引入DSA机制,V3.2-Exp实现了长文本训练和推理效率的大幅提升。同时,在与前代模型V3.1-Terminus的严格对齐比较中,V3.2-Exp在各项核心能力上都保持了与V3.1-Terminus基本持平的水准。


图源:DeepSeek微信公众号

得益于新模型服务成本的大幅降低,DeepSeek API的价格也大幅下调,开发者调用DeepSeek API的成本将降低50%以上。

国产算力无缝适配,TileLang引关注

DeepSeek V3.2-Exp发布后,华为昇腾、寒武纪和海光信息也第一时间宣布完成了与其适配,显示出当前国产AI软硬件生态的协同发展。

同时还值得注意的是,DeepSeek此次开源了新模型研究中设计和实现的GPU算子,包括 TileLang 和 CUDA 两种版本。DeepSeek建议社区在进行研究性实验时,使用基于 TileLang 的版本以方便调试和快速迭代。

DeepSeek对TileLang这一国产编程语言的采用与推荐引发业内高度关注。

TileLang是由北京大学计算机学院副研究员杨智团队主导开发的开源AI算子编程语言,专门为简化复杂的GPU算子开发而设计,在Tile粒度上进行编程和编译,实现模型算子和硬件的高效协同。开发者使用TileLang可以用更简洁的代码表达复杂计算,同时获得接近手写算子的高性能,从而显著提升AI算子的开发效率。

TileLang团队核心成员董宇骐此前曾介绍,TileLang实现了FlashAttention算子开发,代码量从超500行减少至80行,并保持了与官方版本持平的性能。

TileLang与国产硬件生态适配。“华为计算”在9月29日傍晚宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持,并面向开发者开源所有推理代码和算子实现。其称,昇腾已实现TileLang的Sparse Flash Attention和Lightning Indexer算子开发,后续将支持更完备的NPU算子并提升性能和泛化性。

这表明,国产模型、编程语言与算力正深度协同共进,合力推动国内AI行业自主发展。

随机内容
一体化组件厂加快储能“出海” 天合光能再签海外2.66GWh储能订单|速读公告 一体化组件厂加快储能“出海” 天合光能再签海外2.66GWh储能订单|速读公告
独家I低空经济爆发 山河星航“阿若拉”轻型运动飞机订单上半年突破100架 独家I低空经济爆发 山河星航“阿若拉”轻型运动飞机订单上半年突破100架
联影智能首席科学家高耀宗:应重视技术敏感性与跨学科融合 联影智能首席科学家高耀宗:应重视技术敏感性与跨学科融合
五部门:加快培育数据要素市场 推进数据产业与低空经济、无人驾驶、具身智能等数据密集型产业融合发展 五部门:加快培育数据要素市场 推进数据产业与低空经济、无人驾驶、具身智能等数据密集型产业融合发展
美国科技股遭猛烈抛售!小摩大喊抄底 并点名这些AI“便宜货” 美国科技股遭猛烈抛售!小摩大喊抄底 并点名这些AI“便宜货”
范波跨省履新苏州市委书记  曾任职国家部委及四川、山东两省 范波跨省履新苏州市委书记 曾任职国家部委及四川、山东两省
MNC重磅试验点燃创新药板块 出海BD迎来收获期 这些公司Q3业绩已有改善 MNC重磅试验点燃创新药板块 出海BD迎来收获期 这些公司Q3业绩已有改善
全资子公司变更   美的“机器人”走上台面 全资子公司变更 美的“机器人”走上台面
海通国际:美国AI数据中心用电现新趋势 燃气轮机采用比例或将逐步提高 海通国际:美国AI数据中心用电现新趋势 燃气轮机采用比例或将逐步提高
第十一批国家组织药品集采开标 中选产品满足临床和患者多元需求 第十一批国家组织药品集采开标 中选产品满足临床和患者多元需求