蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio
蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio
一套模型搞定ASR、TTS、以及语音编辑
亮点是可以自由形式的语音编辑,无需手工选区,用自然语言即可,比如说“把这句话里的‘苹果’换成‘香蕉’”,它就能自动完成语义和声学修改
可以插入、删除、替换、降噪、变速、变声、方言转换等
在中文语音生成任务上,词错误率为0.95%,超Qwen3-Omni的1.07% 、Seed-TTS的1.12%
在普通话和英语识别任务上,与Kimi-Audio、Qwen2.5处于同一梯队,方言识别能力强
其核心是一个统一的连续语音分词器,能在端到端模型中有效统一语义和声学特征
会议记录实时转写、有声书合成、播客剪辑、客服语音自动修正、方言/语速/音色转换,现在全部说话即完成
ModelScope:https://modelscope.cn/models/inclusionAI/Ming-UniAudio-16B-A3B