AI搜索导航
  • 首页
  • 科技方案
  • AI智能工具
  • AI摇一摇
  • 书籍推荐
登录 注册
  • 首页
  • 科技方案
  • AI智能工具
  • AI摇一摇
  • 书籍推荐
  • 首页
  • 科技热点
  • 蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio

蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio

2025-12-05 作者:技术PP虾 浏览量:497

蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio

一套模型搞定ASR、TTS、以及语音编辑

亮点是可以自由形式的语音编辑,无需手工选区,用自然语言即可,比如说“把这句话里的‘苹果’换成‘香蕉’”,它就能自动完成语义和声学修改

可以插入、删除、替换、降噪、变速、变声、方言转换等

在中文语音生成任务上,词错误率为0.95%,超Qwen3-Omni的1.07% 、Seed-TTS的1.12%

在普通话和英语识别任务上,与Kimi-Audio、Qwen2.5处于同一梯队,方言识别能力强

其核心是一个统一的连续语音分词器,能在端到端模型中有效统一语义和声学特征

会议记录实时转写、有声书合成、播客剪辑、客服语音自动修正、方言/语速/音色转换,现在全部说话即完成

ModelScope:https://modelscope.cn/models/inclusionAI/Ming-UniAudio-16B-A3B

github:https://github.com/inclusionAI/Ming-UniAudio

分类

  • 全部 (1553)
  • 科技热点 (624)
  • 前端科技 (6)
  • AI指令集合 (417)
  • 经验分享 (3)
  • 动漫短片创作脚本 (503)

相关最新

  • OpenAI 发布超强小型模型GPT-5.4 mini与nano,速度与性能双丰收!
  • ​滴滴 AI 出行助手“小滴”v1.0 正式上线:支持一句话个性化叫车
  • 百度“秒哒”上线应用生成Skill:开启零门槛全球应用开发新时代
  • ​北京启动“清朗京华·AI 向善”专项行动,严打涉 AI 领域五类网络乱象
  • 腾讯ima上线Skills功能:首发笔记插件并适配OpenClaw等主流工具
  • 百万级智能体“大练兵”!MiniMax 联手腾讯云:RL 沙箱实现全量平稳运行
关于我们 免责声明 用户协议
Copyright ©2026 AI搜索导航 All Rights Reserved
渝公网安备50019002504915号 渝ICP备2025061478号-2
首页 分类
工具
书籍 文章 我的