华中科技大学与金山软件发布开源AI模型Monkey,号称在识别图像反馈功能超越GPT-4V

 

华中科技大学与金山软件发布开源AI模型Monkey,号称在识别图像反馈功能超越GPT-4VMonkey 带来了一种高效的训练方法,可以有效地将输入分辨率容量提高到 896 x 1344 像素,而无需从一开始就进行预训练。为了弥合简单文本标签和高输入分辨率之间的差距,研究团队提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以指导模型学习场景和对象之间的上下文关联。通过这两种设计的协同作用,该模型在多个基准测试中取得了优异的结果。通过将该AI模型与各种 LMM(包括 GPT4V)进行比较,Monkey模型通过关注文本信息并捕获图像中的精细细节,在图像字幕方面表现出了良好的性能;其改进的输入分辨率还可以在具有密集文本的文档图像中实现出色的性能。

华中科技大学与金山软件发布开源AI模型Monkey,号称在识别图像反馈功能超越GPT-4V

用户能快速且易于使用。只需从桌面或手机上传图像,或直接捕获图像即可。截至2023年11月14日前,该团队观察到对于一些随机图片Monkey可以取得比GPT-4V更准确的结果。

Monkey项目链接:
https://github.com/Yuliang-Liu/Monkey

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索