为什么RAG无法解决生成式AI的幻觉问题

幻觉——基本上是生成式AI模型所说的谎言——对于试图将这项技术整合到其运营中的企业来说是一个大问题。

由于模型没有真正的智能,只是根据私有模式预测单词、图像、语音、音乐和其他数据,所以它们有时会出错。在《华尔街日报》最近的一篇文章中,一位消息人士回忆了微软的生成式AI发明了参会人员,并暗示电话会议是关于实际上并未在电话会议上讨论的主题。

正如我之前写的那样,幻觉可能是今日基于转换器模型架构无法解决的问题。但许多生成式AI供应商表示,可以通过一种技术方法称为检索增强生成(RAG)来更或多或少地解决这个问题。

以下是供应商Squirro是如何宣传RAG技术的:

这项服务的核心是检索增强的LLM或检索增强生成(RAG)嵌入在解决方案中……【我们的生成式AI】在其零幻觉的承诺中是独一无二的。它生成的每一条信息都可以追溯到一个来源,确保可信度。

以下是SiftHub提供的类似宣传:

利用RAG技术和经过细化的大规模语言模型经过行业特定知识训练,SiftHub让公司能够生成个性化响应,零幻觉。这保证了增加的透明度和降低的风险,并激发了对AI在满足其所有需求上的绝对信任。

RAG是由数据科学家Patrick Lewis、Meta和伦敦大学学院(University College London)的研究员创立的,并且是2020年首次提出这个术语的主要作者。应用于模型时,RAG通过类似于关键字搜索的方式检索可能与问题相关联的文档,例如关于超级碗(Super Bowl)的维基百科页面,然后要求模型基于这些额外的上下文生成答案。

“当您与ChatGPT或Llama等生成式AI模型进行交互并提出问题时,模型默认会从其‘参数式内存’中回答,即根据在网络上广泛数据训练而存储在其参数中的知识,”非营利性艾伦研究所(AI2)AI专业研究部门的研究科学家David Wadden 解释道。“但是,就像您在面前有参考书籍或文件时更有可能给出更准确的答案一样,对于某些情况,模型也是如此。”

RAG无疑是有用的——它使一个可以归因于检索到的文档所生成的模型以验证其真实性(而且作为一个附加好处,避免潜在侵犯版权的简单讲述)。RAG还让不希望其文件用于训练模型的企业——比如高度受监管行业的医疗保健和法律公司——可以更安全和临时地允许模型利用这些文件。

但是RAG肯定无法阻止模型出现幻觉。而且很多供应商忽略了它的局限性。

Wadden指出,RAG在“知识密集型”场景中效果最佳,当用户想要用模型来解决一个“信息需求”时——例如,找出去年谁赢得了超级碗。在这些情况下,回答问题的文档很可能会包含与问题相同的许多关键字(例如,“超级碗”,“去年”),使得可以通过关键字搜索相对容易找到。

对于“推理密集型”任务,如编码和数学,情况就变得更加棘手,很难在基于关键字的搜索查询中指定答案所需的概念,更不用说确定哪些文档可能是相关的了。

即使是基本问题,模型也可能会被文档中的无关内容所“分心”,特别是在答案不明显的长文档中。或者出于尚不清楚的原因,它们可能会忽视检索到的文档的内容,选择依赖于其参数式内存。

RAG在硬件上的应用成本昂贵。这是因为无论是来自网络、内部数据库还是其他地方的检索到的文档,都必须存储在内存中——至少暂时,以便模型可以参考它们。还要考虑到为模型在生成其响应之前处理的更多上下文而增加的计算。对于一个因其基本操作而需要相当多计算和电量而出名的技术来说,这是一个重要的考虑因素。

这并不意味着RAG不能得到改进。 Wadden指出许多正在进行的努力,以培训模型更好地利用RAG检索到的文档。

其中一些努力涉及可以“决定”何时利用这些文档的模型,或者如果他们认为不需要,则选择不进行检索。其他人专注于更有效地索引大规模文档数据集,并通过更好地表现文档——超越关键字的表示——来改进搜索。”

“我们在基于关键字检索文档方面做得相当好,但在基于更抽象概念,例如解决数学问题所需的证明技巧方面,检索文档方面就不那么擅长了,”Wadden说。“需要进一步研究来构建能够识别更抽象生成任务所需相关文档的文档表示和搜索技术。我认为在这一点上这主要是一个没有答案的问题。”

因此,RAG可以帮助减少模型的幻觉——但它并非解决AI所有幻觉问题的答案。谨防任何试图声称RAG能解决所有问题的供应商。