Meta开源的长视频大语言模型:LongVU

采用了重复帧过滤和跨帧token压缩等技术。通过这些方法,模型在保留视频中的视觉细节的同时,能够高效地降低视频token的数量,从而更好地利用上下文长度。
项目地址:vision-cair.github.io/LongVU/

群主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x
今日签到
有新私信 私信列表
搜索