VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法。

具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样连续信号回归。

 

评论交流2

登录后可发布评论哦~
    avatar
    翟明辉
    2026-05-06

    体验了VALL-E的语音演示,仅需短短几秒音频就能高度还原声音的特色与,确实令人惊艳。不过稍微有点遗憾的是,目前似乎只能收听官方提供的固定样例。真心期待未来能开放更多权限让我们也能亲自上手尝试一下。

    avatar
    高小糖
    2026-05-06

    体验了VALL-E,将语音合成语言模型的新思路确实让人眼前一亮。合成的声音很有质感,情感也足够细腻。虽然目前底层技术对普通人来说稍显深奥,但能感受到研发的用心,期待未来能提供更亲民的界面让大家轻松体验。