当前所在位置: 首页 > 生活

给大语言模型开个眼,看图说话性能超CLIP,斯坦福等新方法无 环球快消息

2023-07-06 12:51:00来源:互联网


(资料图)

不靠多模态数据,大语言模型也能看得懂图?!

话不多说,直接看效果。

就拿曾测试过 BLIP-2 的长城照片来说,它不仅可以识别出是长城,还能讲两句历史:

再来一个奇形怪状的房子,它也能准确识别出不正常,并且知道该如何进出:

故意把“Red”弄成紫色,“Green”涂成红色也干扰不了它:

这就是最近研究人员提出的一种新模块化框架 ——LENS

关键词:

上一篇:蚂蚁庄园7月2日答案最新 蚂蚁庄园7月2日答案最新2020
下一篇:最后一页