AI搜索导航
  • 首页
  • 科技方案
  • AI智能工具
  • AI摇一摇
  • 书籍推荐
登录 注册
  • 首页
  • 科技方案
  • AI智能工具
  • AI摇一摇
  • 书籍推荐
  • 首页
  • 科技热点
  • MIT和英伟达等放出的一款可以实时理解无限长度视频流的视觉语言模型:StreamingVLM,单块H100可达8 FPS

MIT和英伟达等放出的一款可以实时理解无限长度视频流的视觉语言模型:StreamingVLM,单块H100可达8 FPS

2025-10-15 作者:技术PP虾 浏览量:466

可以用于实时视频助手、直播分析、智能监控、在线会议/课堂助手等等场景

其主要通过紧凑KV缓存机制和流式对齐训练策略来实现,在其Inf-Streams-Eval长视频理解任务超GPT-4o-mini

紧凑KV缓存机制仅保留三类信息,Attention Sink、近期视觉token窗口、长期文本token窗口,来实现恒定内存占用,以支持无限长视频流

训练时使用短、重叠的视频片段,模拟推理时的流式注意力模式;避免训练阶段使用超长视频,降低训练成本;保持训练与推理一致性,提升模型稳定性

github:https://github.com/mit-han-lab/streaming-vlm

分类

  • 全部 (1553)
  • 科技热点 (624)
  • 前端科技 (6)
  • AI指令集合 (417)
  • 经验分享 (3)
  • 动漫短片创作脚本 (503)

相关最新

  • OpenAI 发布超强小型模型GPT-5.4 mini与nano,速度与性能双丰收!
  • ​滴滴 AI 出行助手“小滴”v1.0 正式上线:支持一句话个性化叫车
  • 百度“秒哒”上线应用生成Skill:开启零门槛全球应用开发新时代
  • ​北京启动“清朗京华·AI 向善”专项行动,严打涉 AI 领域五类网络乱象
  • 腾讯ima上线Skills功能:首发笔记插件并适配OpenClaw等主流工具
  • 百万级智能体“大练兵”!MiniMax 联手腾讯云:RL 沙箱实现全量平稳运行
关于我们 免责声明 用户协议
Copyright ©2026 AI搜索导航 All Rights Reserved
渝公网安备50019002504915号 渝ICP备2025061478号-2
首页 分类
工具
书籍 文章 我的