MiniMax 大模型“叫错人名” 稀宇科技：特定词元后训练不足导致

2天前作者：技术PP虾浏览量：7

这是一篇为您精心撰写的科技深度分析文章，基于您提供的标题和描述进行了丰富的扩展，结构严谨，段落清晰，适合在科技媒体、自媒体平台或行业论坛发布：

MiniMax 大模型“叫错人名” 稀宇科技：特定词元后训练不足导致

在人工智能大模型狂飙突进的今天，AI 不仅能写诗写代码，还能与人流畅对话。然而，即便是拥有千亿参数的最先进模型，有时也会犯一些令人啼笑皆非的“低级错误”——比如，怎么也念不对一个常见中国人的名字。

近日，国内头部大模型公司稀宇科技发布了一份最新技术报告，正面回应了其旗下 MiniMax 大模型（M2系列）在生成“马嘉祺”等特定人名时出现的输出错误或“张冠李戴”的现象。报告揭示，这一问题的根源在于分词器导致的“词元偏移”以及特定词元的后训练不足。这不仅解释了 MiniMax 的“口误”，更暴露了当前大语言模型（LLM）训练中一个普遍且隐蔽的行业痛点。

现象剖析：当大模型遇上“马嘉祺”

在用户的实际测试中发现，当要求 MiniMax 的 M2 系列模型生成或复述包含“马嘉祺”（时代少年团成员）等特定人名的内容时，模型往往会出现偏差，要么输出错误的字符组合，要么在上下文指代时发生混乱。

对于习惯了模型展现“高智商”的用户而言，这种连小学生都不会犯的错误显得尤为突兀。对此，稀宇科技并没有回避，而是通过详实的技术数据向外界交了底：这不是模型“智商”不够，而是底层的“文字处理机制”出现了偏差。

罪魁祸首：“分词器”带来的词元偏移

要理解大模型为什么会叫错人名，首先需要了解大模型是如何“阅读”文字的。

人类看字是以“词”为单位，而大模型是以“词元”为单位。稀宇科技在技术报告中指出，问题的核心出在分词器上。

在处理“马嘉祺”这个名字时由于中文分词的特性，模型的分词器将其作为一个完整的核心词元来处理，而是将其生硬地“切碎”了。

理想状态下，“马嘉祺”应该作为一个独立的词元，在模型的向量空间中拥有专属的坐标。
实际情况是，模型将其切分为了“马”和“嘉祺”两个独立的部分。

这种切分方式导致了严重的“词元偏移”问题。当名字被拆解后，原本代表特定人物的组合特征被强行剥离，导致这几个字在模型高维向量空间中的表示被挤压和扭曲。模型在生成内容时，由于向量空间的混乱，无法准确映射回正确的字符组合，最终导致了输出的偏差与识别错误。

隐蔽的缺陷：后训练阶段的“盲区”

为什么这种向量空间的挤压没有被修复？稀宇科技坦言，这暴露了模型在特定词元后训练不足的问题。

当前大模型的训练通常分为预训练和后训练（如微调、人类反馈强化学习 RLHF 等）。在预训练阶段，模型虽然接触了海量语料，但像“马嘉祺”这样被错误切分的词元，其统计规律本身就带有噪音。
而在后续的指令微调和对齐阶段，如果训练数据中缺乏足够多、足够聚焦的针对性样本（例如专门针对此类切分异常人名的强化训练），模型就无法在参数层面上对这些被“挤压”的向量进行纠正。

这就形成了一个“普遍但隐蔽的缺陷”：

普遍性：由于分词器是基于统计学设计的，任何低频专有名词、特定人名、甚至某些特定的专业术语，都可能遭遇被切碎的命运。
隐蔽性：在宏观的模型能力评测（如文科、理科综合测试）中，这类针对特定词汇的微小生成缺陷很难被常规的 Benchmark 捕捉到，只有在特定用户的特定提问下才会“露馅”。

行业启示：细节决定AI的成败

MiniMax 坦诚公开的技术报告，不仅是对自身产品问题的解答，也给整个大模型行业敲警钟。

随着大模型从“通用能力”的内卷，逐渐走向“实际应用”的落地，评价一个模型好坏的标准不再仅仅是奥数题考了多少分，而是它能否在真实场景中做到精准、可靠。

要解决这一问题，AI 企业需要在几个方面发力：

优化分词器：针对中文特有的姓名、成语、专有名词，优化分词算法，减少不必要的词元切分。
精细化后训练：建立更敏锐的“数据飞轮”，主动收集这类易错元，构建高质量的定制化微调数据集，进行定向修补。
动态词表更新：时代在发展，每天都有新的名人、新词诞生，模型需要建立更灵活的词表更新机制。

总结

“叫错人名”看似是一个微小的Bug，背后却牵扯出分词机制、高维向量空间映射以及后训练数据质量等深层次的技术挑战。稀宇科技主动揭秘 M2系模型的“词元偏移”问题，展现了国内 AI 企业在面对技术瑕疵时严谨、开放的态度。在通往通用人工智能（AGI）的道路上，正是对这些“微小缺陷”的不断修复，才铺就了技术跨越的基石。