Kimi最近发力了,刚刚放出来一款:Kimi Linear,在1M 上下文长度下,KV缓存减少75%,解码吞吐提升6倍
近日,国内人工智能领军企业月之暗面(Moonshot AI)再次引发行业关注。其核心产品Kimi智能模型系列迎来重大技术突破——正式发布全新推理加速架构 Kimi Linear。该技术在长达1M(即一百万)token的上下文处理场景下,实现了KV缓存减少75%,同时解码吞吐量提升高达6倍,标志着长文本处理效率迈入新纪元。
这一进展不仅大幅降低了高上下文AI模型的推理成本,也为实际应用场景如法律文书分析、科研论文理解、代码生成与审计、长篇内容创作等提供了前所未有的支持能力。
MMLU-Pro(4k 上下文)得分 51.0,速度与全注意力相当
RULER(128k 上下文)得分 84.3,速度提升3.98倍
1M token超长序列,解码吞吐比MLA快6.3倍
Kimi Linear把Transformer里最耗内存最拖速度的全注意力,大部分换成了硬件友好的线性注意力,3层+1层混合比例,省显存,提高了长文本生成速度
对长上下文应用的场景,可以更便宜、快速落地了
HF:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
github:https://github.com/MoonshotAI/Kimi-Linear

