Multimodal

Multimodal(多模态)指系统或模型能够同时处理和理解多种类型的数据输入,如文本、图像、音频、视频等。通过融合不同模态的信息,提升感知与认知能力,广泛应用于人工智能、人机交互、自动驾驶等领域。