蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio 蚂蚁开源了一款集语音识别、生成、编辑于一体的统一语音模型:Ming-UniAudio 一... 2025-12-05 379次浏览
MIT和英伟达等放出的一款可以实时理解无限长度视频流的视觉语言模型:StreamingVLM,单块H100可达8 FPS 可以用于实时视频助手、直播分析、智能监控、在线会议/课堂助手等等场景 其主要通... 2025-10-15 363次浏览