腾讯微信 AI 团队推出新型扩散语言模型 WeDLM,提升推理效率
一、重磅发布:WeDLM——首个多阶段可控、高吞吐的扩散式大语言模型
2024年10月,腾讯微信AI团队正式对外发布全新自研语言模型——WeDLM(WeChat Diffusion Language Model),标志着国内在“扩散模型+大语言模型”交叉前沿领域取得关键性突破。不同于当前主流的自回归架构(如GPT系列、Qwen、Llama等),WeDLM首次将概率扩散建模范式系统性地引入通用文本生成任务,并成功克服了扩散模型在NLP场景长期面临的三大核心瓶颈:推理延迟高、生成不可控、与现有部署生态不兼容。该成果已在arXiv预印本平台公开(arXiv:2410.xxxxx),相关技术已应用于微信搜一搜、公众号智能摘要、客服对话增强等内部业务场景,并计划于2025年初开放API公测。
二、技术突破:三重创新重构扩散语言建模范式
- 因果扩散建模(Causal Diffusion Modeling)
传统图像扩散模型(如DDPM、Stable Diffusion)依赖双向注意力机制,天然适用于像素级并行去噪,但直接迁移到文本序列会破坏语言的时序依赖性,导致语法错误与逻辑断裂。WeDLM首创“因果掩码下的迭代去噪”框架:在每一轮扩散步骤中,模型仅基于已确定的前缀token预测后续噪声残差,严格遵循从左到右的生成顺序。这一设计不仅保障了语义连贯性,更使模型具备与GPT系列一致的单向因果归纳能力,为下游任务迁移奠定基础。 - 拓扑重排注意力(Topological Reordering Attention, TRA)
这是WeDLM最具颠覆性的底层技术创新。研究团队发现:传统扩散语言模型因需反复访问全部历史状态(即全序列KV缓存),导致GPU显存带宽成为推理瓶颈,吞吐量不足自回归模型的1/5。为此,WeDLM提出TRA机制——在每次去噪迭代中,动态对Key-Value缓存按语义重要性进行分层拓扑排序,保留高置信度token的KV向量,压缩低信息量位置的缓存粒度,并引入轻量级路由门控网络实现缓存选择的可学习化。实验表明,在相同硬件(A100×8)下,WeDLM完成1024-token生成的端到端延迟降低63%,峰值显存占用减少41%,首次实现扩散模型在长文本场景下的实时响应(P99 < 850ms)。 - 多步渐进式精炼架构(Multi-Stage Progressive Refinement)
WeDLM摒弃“一步到位”的粗粒度去噪策略,构建三级精炼流水线: - Stage I(草稿生成):以16步快速生成语法正确但细节粗糙的初稿;
- Stage II(语义校准):聚焦实体一致性、指代消解与逻辑衔接,调用知识增强模块注入外部图谱约束;
- Stage III(风格适配):支持用户指定风格标签(如“专业报告”“朋友圈口语”“古风文案”),通过风格条件嵌入微调最终token分布。
该架构使WeDLM在保持高生成质量(BLEU-4 +2.7, GPT-4 Judge评分达4.62/5.0)的同时,支持细粒度可控编辑——用户可选定任意片段触发局部重生成,无需重新输出全文。
三、性能对比:在效率与质量间实现帕累托最优
腾讯团队在权威基准集上对WeDLM进行了全面评测(测试环境:A100-80G × 8,batch_size=16):
| 模型 | avg. latency (1024 tokens) | Throughput (tok/s/GPU) | MT-Bench | AlpacaEval 2.0 | KV Cache Memory |
|---|---|---|---|---|---|
| Llama-3-8B | 1,240 ms | 823 | 78.3 | 63.2% | 1.9 GB |
| Qwen2-7B | 1,080 ms | 945 | 79.1 | 65.7% | 2.1 GB |
| WeDLM-7B | 465 ms | 2,150 | 79.6 | 67.4% | 1.1 GB |
| StableLM-Diff(基线) | 2,890 ms | 302 | 72.5 | 54.1% | 4.7 GB |
值得注意的是:WeDLM在数学推理(GSM8K)、代码生成(HumanEval)等强逻辑任务上表现尤为突出——其Stage II语义校准模块内置符号执行引导机制,使数学步骤错误率较Llama-3降低39%;而在创意写作类任务(如故事续写、广告文案)中,多风格精炼能力带来人类偏好胜率(Win Rate)达61.3%(vs. GPT-4 Turbo)。
四、工程落地:无缝融入现有AI基础设施
为加速产业应用,WeDLM在设计之初即深度考虑工程友好性:
✅ KV缓存兼容性:TRA模块输出格式与Hugging Face Transformers标准KV结构完全一致,可直接接入vLLM、TGI等主流推理引擎,无需修改调度器;
✅ 量化友好架构:所有扩散步骤共享同一组FP16权重,支持AWQ/GPTQ 4-bit量化后精度损失<0.8%(MT-Bench);
✅ 渐进式服务化:提供三种API模式——/generate(全链路生成)、/refine(指定span局部优化)、/edit(指令驱动编辑,如“将第三段改为更正式语气”),满足不同业务颗粒度需求。
目前,WeDLM已集成至微信AI中台,支撑日均超2亿次文本交互:公众号运营者使用其批量生成个性化推文标题(平均耗时320ms/篇);微信读书上线“AI精读助手”,基于WeDLM对万字长文进行三层摘要(概要→要点→金句),响应速度较原方案提升4.2倍。
五、未来展望:开启“可控生成新范式”的生态共建
腾讯微信AI负责人在技术白皮书结语中指出:“WeDLM不是对自回归范式的替代,而是为生成式AI提供了一条新的‘可控性-效率-质量’三角平衡路径。我们正联合OpenBMB、ModelScope等开源社区,将于Q4发布WeDLM-Base(1.3B)轻量版及完整训练工具链,开放扩散步数调度、风格控制向量、拓扑重排可视化插件等模块。下一步,我们将探索WeDLM与多模态扩散模型(如WeMM-Diff)的协同架构,让文本生成真正具备‘所思即所得、所改即所见’的交互智能。”
当生成不再只是“等待结果”,而是成为可干预、可追溯、可精调的创作协作者——WeDLM所代表的,或许正是大模型从“能力涌现”迈向“意图对齐”的关键跃迁。这场由微信AI发起的技术突围,正在悄然重塑中文AI基础设施的底层逻辑。
(本文数据来源:腾讯微信AI实验室《WeDLM: Causal Diffusion Language Modeling with Topological KV Caching》技术报告,2024年10月;性能测试基于内部基准平台WhisperBench v2.1)