DeepSeek上新！处理长文本更高性价比，国产技术协同加强

摘要：21世纪经济报道记者陈归辞9月29日，DeepSeek-V3.2-Exp模型正式发布。V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的

21世纪经济报道记者陈归辞

9月29日，DeepSeek-V3.2-Exp模型正式发布。

V3.2-Exp在V3.1-Terminus的基础上首次引入了团队自研的DeepSeek Sparse Attention （一种稀疏注意力机制，DSA），针对长文本的训练和推理效率进行了探索性的优化和验证。

DSA是一种针对Transformer架构的优化技术。在大语言模型的技术机制中，注意力机制是一个核心组件，决定了模型如何在文本序列中聚焦关键信息，实现语义理解与生成。

简单对比来看，在Transformer架构中，传统的注意力机制是“稠密的”，处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案，更高效，成本也更低。

得益于新模型服务成本的大幅降低，DeepSeek API的价格也大幅下调50%以上。

除技术创新与价格“腰斩”外， DeepSeek此次开源TileLang版本算子，同样引发业内高度关注。

实验版本

当日更早时候，有不少业内人士注意到，DeepSeek将 v3.2-base 上传至DeepSeek在社区平台HuggingFace的官方页面，但很快被删除。此后，DeepSeek正式公告新版本DeepSeek-V3.2-Exp的推出。

作为一款实验版本，DeepSeek认识到“新模型仍需在更广泛的用户真实场景中进行大规模测试，以排除在某些场景下效果欠佳的可能”。

为方便用户进行对比测试，DeepSeek为此前发布的V3.1-Terminus临时保留了额外的API访问接口，将开放至10月15日，调用价格与V3.2-Exp一致。

DeepSeek 现已将 DeepSeek-V3.2-Exp模型在 Huggingface 和 ModelScope 平台上全面开源，相关论文也已同步公开。

稀疏注意力机制

随着模型的发展，长文本处理需求日益增长。

根据业内分析，传统的Transformer全连接注意力机制，虽然在模型效果上表现出色，但其“稠密的”注意力机制使得计算复杂度随着文本长度增加，计算量呈指数级增长。这使得在处理长文本时，模型面临巨大的计算资源压力，训练时间被大幅拉长，推理速度也难以满足实时性需求。

针对长文本处理的主要计算瓶颈，DeepSeek Sparse Attention（DSA）首次实现细粒度稀疏注意力机制。

DSA机制能够自适应地选择关键注意力头与局部上下文窗口。简单对比来看，在Transformer架构中，传统的注意力机制是“稠密的”，处理长文本时计算量会呈指数级增长。DSA则是一种“稀疏”方案，更高效，成本也更低。

通过引入DSA机制，V3.2-Exp实现了长文本训练和推理效率的大幅提升。同时，在与前代模型V3.1-Terminus的严格对齐比较中，V3.2-Exp在各项核心能力上都保持了与V3.1-Terminus基本持平的水准。

图源：DeepSeek微信公众号

得益于新模型服务成本的大幅降低，DeepSeek API的价格也大幅下调，开发者调用DeepSeek API的成本将降低50%以上。

国产算力无缝适配，TileLang引关注

DeepSeek V3.2-Exp发布后，华为昇腾、寒武纪和海光信息也第一时间宣布完成了与其适配，显示出当前国产AI软硬件生态的协同发展。

同时还值得注意的是，DeepSeek此次开源了新模型研究中设计和实现的GPU算子，包括 TileLang 和 CUDA 两种版本。DeepSeek建议社区在进行研究性实验时，使用基于 TileLang 的版本以方便调试和快速迭代。

DeepSeek对TileLang这一国产编程语言的采用与推荐引发业内高度关注。

TileLang是由北京大学计算机学院副研究员杨智团队主导开发的开源AI算子编程语言，专门为简化复杂的GPU算子开发而设计，在Tile粒度上进行编程和编译，实现模型算子和硬件的高效协同。开发者使用TileLang可以用更简洁的代码表达复杂计算，同时获得接近手写算子的高性能，从而显著提升AI算子的开发效率。

TileLang团队核心成员董宇骐此前曾介绍，TileLang实现了FlashAttention算子开发，代码量从超500行减少至80行，并保持了与官方版本持平的性能。

TileLang与国产硬件生态适配。“华为计算”在9月29日傍晚宣布昇腾已实现DeepSeek-V3.2-Exp 0day支持，并面向开发者开源所有推理代码和算子实现。其称，昇腾已实现TileLang的Sparse Flash Attention和Lightning Indexer算子开发，后续将支持更完备的NPU算子并提升性能和泛化性。

这表明，国产模型、编程语言与算力正深度协同共进，合力推动国内AI行业自主发展。

随机内容