多模态翻译

多模态翻译指结合文本、图像、音频等多种信息进行的翻译任务,利用不同模态间的互补性,提升翻译的准确性与上下文理解能力,常用于视频字幕生成、图文翻译等场景。