LLaVA是一个大型多模态模型,旨在实现通用视觉和语言理解。它端到端训练,可以理解文本和图像,并在聊天中灵活运用这些信息。LLaVA在多模态指令跟随数据集上与GPT-4表现相似,相对分数达到85.1%。在Science QA上,其准确率达到92.53%。LLaVA模型将预训练的视觉编码器(CLIP ViT-L/14)与大型语言模型(Vicuna)通过简单投影矩阵连接。训练分为两个阶段:阶段1只更新投影矩阵,基于CC3M子集进行特征对齐预训练;阶段2更新投影矩阵和大型语言模型进行端到端微调,适应日常用户导向应用和科学问答场景。
LLaVA在视觉与语言结合上的表现令人惊喜,准确率也很高。作为开源项目,它不仅结构清晰,效果接近GPT-4,对于想要探索多模态领域的开发者来说,确实是一个值得尝试的好工具。