最新一轮的语言模型,如GPT-4o和Gemini 1.5 Pro,被吹捧为“多模态”,可以理解图像和音频以及文本。但一项新研究明确表明,它们实际上并不像您所期望的那样看到。实际上,它们可能根本不会看到。
首先明确一点,没有人声称像“这种AI可以像人类一样看!”(嗯,也许有些人这样做了)。但用于推广这些模型的营销和基准使用了诸如“视觉能力”、“视觉理解”等短语。他们谈论模型如何看到和分析图像和视频,因此可以从做作业问题到看比赛等任何事情。
因此,尽管这些公司的声明巧妙地避免,但很明显他们想表达模型从某种意义上看到。而实际上,是的 - 但在某种程度上,它与数学或写作故事的方式相同:将输入数据中的模式与训练数据中的模式进行匹配。这会导致这些模型在某些看似微不足道的其他任务上失败,比如选择一个随机数字。
奥本大学和阿尔伯塔大学的研究人员进行了一项关于目前AI模型视觉理解的研究,这项研究虽然在某些方面是非正式的,但具有系统性。他们在最简单的视觉任务上测试了最大的多模态模型,例如询问两个形状是否重叠,一幅图片中有多少个五边形,一个单词中哪个字母被圈起来。
这些是甚至一年级学生都会正确完成的任务,但对AI模型却很困难。
“我们的七个任务非常简单,人类将100%准确完成。我们期望AI也一样,但目前却没有,”合著者Anh Nguyen在给TechCrunch的一封电子邮件中写道。“我们的观点是,‘看,这些最佳模型仍然在失败。’”
重叠的形状测试是最简单的可想象的视觉推理任务之一。当展示两个稍有重叠、刚触及或间隔一些距离的圆时,这些模型无法始终准确解答。当它们彼此之间距离很远时,GPT-4o基本可以在95%以上的情况下正确解答,但是在距离为零或较小距离时,它只有18%的正确率。Gemini Pro 1.5表现最好,但在靠近距离时仍然只能答对7/10。
(这些插图不显示模型的准确表现,而是意在展示模型在不同条件下的不一致性。每个模型的统计数据都在论文中。)
还有在图像中数两个错综复杂的圆环?我敢打赌,一匹优秀的马都能做到。
当有五个环时,它们都能100%准确回答,但是再增加一个环就完全毁掉了结果。Gemini迷失了,在一次也无法正确回答。Sonnet-3.5回答六个...三分之一的准确率,而GPT-4o则略低于一半的准确率。再增加一个环会让情况变得更难,但对某些模型来说增加一个环会变得更容易。
这个实验的目的很简单,无论这些模型在做什么,它们似乎并不真正对应我们认为的“看”。毕竟,即使它们视觉效果差,我们也不会期望六、七、八和九个环的图像在成功率上有如此巨大的变化。
测试的其他任务显示了类似的模式;问题不在于它们视觉或推理表现好还是差,而是它们似乎有一些其他原因可以解释为什么它们在某种情况下能够计数而在另一种情况下却不能。
当然,一个潜在的答案直接呈现在我们面前:为什么它们在准确回答一个包含五个环的图像时如此出色,但在其他情况下却如此失败,或者当是五个五边形时?(公平地说,Sonnet-3.5在这方面表现得相当好。)因为它们所有都在他们的训练数据中显著地展示了一个五环图像:奥运五环。
这个标志不仅在训练数据中反复出现,而且可能在alt文本、使用指南和有关它的文章中详细描述。但在它们的训练数据中,哪里会找到六个错综复杂的环?或者七个?如果它们的回答是任何指示:根本找不到!它们并不知道自己在“看”什么,并且对圆环、重叠或任何这些概念的实际视觉理解都是没有的。
我问研究人员对于他们所指控的这种模型“盲目”是什么看法。就像我们使用的其他术语一样,这个术语具有一种不太准确但难以在没有的拟人质量。
“我同意,‘盲目’即使对人类来说也有很多定义,并且目前没有一个词可以形容AI对我们展示的图像的这种盲目/不敏感,”Nguyen写道。“目前,还没有技术可以准确地可视化模型正在看到的内容。他们的行为是输入文本提示、输入图像和数十亿权重的复杂函数。”
他推测,这些模型并不是完全盲目,但它们从图像中提取的视觉信息是近似的和抽象的,类似于“左侧有一个圆”。但是这些模型无法进行视觉判断,因此它们的响应就像某人对图像有所了解但却不能真正看到的响应。
当蓝色圆和绿色圆重叠时(正如问题提示模型应该将之作为事实处理时),通常会产生青色区域,就像梵恩图中的那样。如果有人问你这个问题,你或任何聪明的人可能会给出同样的答案,因为这是完全合理的...如果你闭着眼睛!但是任何睁着眼睛的人都不会这样回答。
这一切是否意味着这些“视觉”AI模型是无用的?远非如此。不能对某些图像进行基本推理表明它们的基本能力有问题,但不代表它们的具体能力如何。每个模型可能在诸如人类动作和表情、日常物品和情况的照片等方面都非常准确。事实上,这正是它们被设计来解释的。
如果我们依赖AI公司的营销来告诉我们这些模型可以做到的一切,我们可能会认为它们具有20/20的视力。这样的研究有助于表明,无论模型在判断一个人是坐着、走着还是跑着方面有多准确,它们都是在没有“看”(如果你愿意这么说)的意义上完成的。