MIT和英伟达等放出的一款可以实时理解无限长度视频流的视觉语言模型:StreamingVLM,单块H100可达8 FPS
可以用于实时视频助手、直播分析、智能监控、在线会议/课堂助手等等场景
其主要通过紧凑KV缓存机制和流式对齐训练策略来实现,在其Inf-Streams-Eval长视频理解任务超GPT-4o-mini
紧凑KV缓存机制仅保留三类信息,Attention Sink、近期视觉token窗口、长期文本token窗口,来实现恒定内存占用,以支持无限长视频流
训练时使用短、重叠的视频片段,模拟推理时的流式注意力模式;避免训练阶段使用超长视频,降低训练成本;保持训练与推理一致性,提升模型稳定性
github:https://github.com/mit-han-lab/streaming-vlm
