Ferret

Ferret 是一个开源的多模态大语言模型(MLLM),专注于视觉-语言理解任务,能够结合图像与文本信息进行推理和生成,适用于图像描述、视觉问答等场景。