MIT和英伟达等放出的一款可以实时理解无限长度视频流的视觉语言模型:StreamingVLM,单块H100可达8 FPS 可以用于实时视频助手、直播分析、智能监控、在线会议/课堂助手等等场景 其主要通... 2025-10-15 65次浏览