蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型：Ming-UniAudio

2025-12-05 作者：技术PP虾浏览量：647

一套模型搞定ASR、TTS、以及语音编辑

亮点是可以自由形式的语音编辑，无需手工选区，用自然语言即可，比如说“把这句话里的‘苹果’换成‘香蕉’”，它就能自动完成语义和声学修改

可以插入、删除、替换、降噪、变速、变声、方言转换等

在中文语音生成任务上，词错误率为0.95%，超Qwen3-Omni的1.07% 、Seed-TTS的1.12%

在普通话和英语识别任务上，与Kimi-Audio、Qwen2.5处于同一梯队，方言识别能力强

其核心是一个统一的连续语音分词器，能在端到端模型中有效统一语义和声学特征

会议记录实时转写、有声书合成、播客剪辑、客服语音自动修正、方言/语速/音色转换，现在全部说话即完成