让AI聊天机器人更智能：深入探讨检索增强生成（RAG）

我们生活在人工智能取得惊人进步的时代。其中最令人兴奋的发展之一是像ChatGPT和谷歌Gemini这样强大的聊天机器人的兴起。这些系统由所谓的大型语言模型（LLM）驱动，可以做一些非常了不起的事情。它们可以生成听起来像是人写的文本，翻译语言，撰写不同类型的创意内容（如诗歌或故事），甚至可以以信息丰富且有帮助的方式回答您的问题。

但即使是这些先进的系统也有其局限性。有时它们会“幻觉”，这是一种委婉的说法，意思是它们会编造东西。它们也并非总是能访问到最新的信息。这是因为它们的知识是基于它们训练使用的大型数据集，这些数据集本质上是特定时间点的静态快照。想象一下，一个聪明的人记住了一本几年前的巨型百科全书——他们会拥有大量的知识，但他们不会知道在那本百科全书出版之后发生的任何事情。

这就是一种名为检索增强生成 (Retrieval-Augmented Generation, RAG) 的新技术发挥作用的地方。它通过让AI能够在回答您的问题之前“查找”外部知识源，从而解决这些局限性，成为真正的游戏规则改变者。想象一下，将那位知识渊博的百科全书专家的才华，与一位掌握互联网和庞大最新资源库的图书馆大师的研究技能相结合。这就是RAG的力量。

什么是RAG，为什么您应该关注它？

让我们回顾一下我们关于一位聪明的，记忆了大量书籍的朋友，但无法访问互联网的类比。他们可能可以正确回答您的许多问题，但如果您问他们最近发生的事件或他们没有研究过的非常专业的基础，他们会完全迷失方向。现在，想象一下给这位朋友一张借书证，并让他们访问像谷歌这样强大的搜索引擎。突然之间，他们几乎可以找到任何主题的信息，使他们的答案更加准确、最新且与您的特定需求相关。

这本质上就是RAG为AI聊天机器人所做的事情。它结合了LLM的力量（我们“聪明的朋友”，他们的记忆中存储了大量知识）以及从外部资源检索信息的能力（“图书馆和搜索引擎”，提供对更广泛和最新信息的访问）。这种强大的组合带来了几个关键的好处：

增强的准确性： 通过将回复建立在来自可信来源的真实世界数据的基础上，RAG 显着降低了那些讨厌的幻觉的风险。这意味着您可以更加确信您获得的答案在事实上是正确的。
最新的信息： 因为聊天机器人可以从不断更新的来源（如新闻网站或科学数据库）访问最新的信息，所以它不会停留在过去。它可以为您提供与_现在_正在发生的事情相关的信息。
领域专业知识： 想象一下，您需要理解一份复杂的法律文件或获取有关特定医疗状况的信息。借助 RAG，您可以将聊天机器人连接到专门的数据库，从而有效地将其转变为这些特定主题的专家。这为获取几乎任何主题的深入、准确的信息开辟了一个全新的可能性世界。
可验证的答案： AI生成内容的最大担忧之一是信任。您如何知道信息是否可靠？RAG 模型可以设计为向您展示它们用来生成回复的来源。这意味着您可以自己验证信息，从而提高透明度并建立对 AI 答案的信任。您可以将其视为研究论文中的脚注或引文，只不过是用于您的聊天机器人对话。

RAG如何工作？逐步分解

让我们用简单的语言和相关的例子，将RAG的机制分解为核心组成部分：

用户提出问题（查询）： 一切都从您提出问题开始。例如，您可能会问：“关于间歇性禁食益处的最新研究是什么？”
增强查询（查询扩展模块）：
- 这是一个可选但通常有用的步骤。查询进入所谓的查询扩展模块 (Query Expansion Module)。可以将此模块看作是一个头脑风暴工具，它可以智能地扩展您的问题，以包含相关的关键词、同义词和相关概念。这就像您开始在 Google 中输入内容时，它会建议相关的搜索，以帮助您找到您正在寻找的内容。
- 示例： 如果您的查询是“间歇性禁食的益处”，查询扩展模块可能会将其扩展为包括“间歇性禁食的健康影响”、“限时饮食的优势”、“禁食与长寿”等等。
- 技术： 这种扩展可以通过几种方式完成。它可能涉及简单的技术，例如生成同义词或从词典中提取相关术语。或者它可以使用更先进的技术，例如使用另一个 LLM（例如 Flan-T5）来生成语义上相似的查询——也就是说，查询的含义与您的原始问题大致相同。
搜索知识库（检索模块）：
- 这是 RAG 的“检索”部分真正闪光的地方。检索模块 (Retrieval Module) 就像一个超级强大的搜索引擎，在庞大的知识库中搜索与您的（可能已扩展的）查询最相关的信息。这个知识库可以是任何东西，从维基百科文章的集合到科学论文的数据库，甚至是公司的内部文档。
- 向量嵌入 (Vector Embeddings): 使这种搜索如此高效的秘诀是一种叫做嵌入 (embeddings) 的东西。简单来说，嵌入是文本的数值表示。它们是使用特殊算法（例如 Sentence Transformers 中的算法，如 all-MiniLM-L6-v2）创建的，这些算法旨在捕获文本的语义含义。可以将其视为将单词和句子翻译成计算机可以理解和快速比较的语言。您可以在此处找到有关 Sentence Transformers 的更多详细信息。
- 相似性搜索 (Similarity Search): 一旦文本被转换为这些数值嵌入，系统就会使用复杂的算法（如 FAISS (Facebook AI Similarity Search)）将您的查询的嵌入与知识库中所有文档的嵌入进行比较。这使其能够快速识别与您的查询在语义上最相似的文档——这意味着它们可能包含相关信息。这是 FAISS 的官方网站链接。
- 检索 Top-K (Retrieving the Top-K): 系统不仅仅返回每个与您的查询稍微相关的文档。相反，它会检索前 k 个最相关的文档或段落。k 的值可以根据具体应用进行调整，但它通常是一个相对较小的数字（如 5 或 10），以确保聊天机器人仅使用最相关的信息。
- 专注模式（可选）(Focus Mode (Optional)): 一种巧妙的改进，称为“专注模式 (Focus Mode)”。在这种模式下，系统更进一步，仅从前 k 个文档中提取最相关的_句子_，而不是使用整个文档。这有助于进一步改进检索过程，确保聊天机器人能够访问最精确和最相关的信息。
撰写答案（文本生成模块）：
- 现在是时候生成您问题的答案了。这就是文本生成模块 (Text Generation Module)，一个强大的 LLM（如 GPT 系列中的模型）发挥作用的地方。这与为 ChatGPT 等聊天机器人提供支持的模型类型相同。
- 提示工程 (Prompt Engineering): LLM 会获得原始查询、检索到的上下文（我们之前找到的那些 k 个文档或段落）以及精心设计的提示 (prompt)。提示本质上是一组指令，告诉 LLM 如何使用检索到的上下文来回答您的问题。例如，提示可能说“使用提供的上下文，回答以下问题”或“总结从检索到的文档中与此问题相关的主要观点”。提示工程是从 LLM 获得良好结果的关键方面，并且是活跃研究的领域。
- 生成回复 (Generating the Response): 然后，LLM 发挥其魔力，综合来自检索到的上下文的信息及其自身的内部知识（它在最初训练期间学到的知识），以生成对您的问题连贯、准确且相关的答案。
交付答案 (Delivering the Answer): 最后一步只是将生成的答案交付给您，用户。这可以通过聊天机器人界面、语音助手或任何其他使用自然语言处理的应用程序来完成。

秘诀：优化RAG以获得最佳性能

RAG 的基本思想很强大，但真正的魔力在于优化其各个组件以实现无缝协作。大量的实验和测试，尝试 RAG 的许多不同配置，以揭示构建这些系统的最佳实践。以下是来自这项研究前沿的关键发现摘要：

1. 大小很重要（但并不总是您想的那样）：

更大的 LLM 通常更好： 更大的 LLM（例如具有 450 亿参数的模型，相比于 70 亿参数的模型）具有更大的能力来学习和理解语言中的复杂模式。这通常会带来更细致、更准确和更像人类质量的回复。例如，更大的 LLM 可能更擅长理解听起来相似的医学术语或法律概念之间的细微差别。然而，已经观察到，对于高度专业的任务，使用更大的模型所获得的好处可能较小，在这些任务中，领域特定的知识比一般的语言理解更重要。
知识库的大小并非一切： 您可能认为拥有庞大的知识库总是更好，但事实并非如此。庞大且未经整理的知识库实际上可能会减慢检索过程，并引入不相关甚至相互矛盾的信息。想象一下，尝试在包含所有关于技术的文章的数据库中查找有关最新 iPhone 的信息——这将是一场噩梦！拥有一个更小、组织良好且具有高质量相关内容的知识库通常更重要。关键在于质量而不是数量。

2. 提示的艺术：

小改动，大影响： 您向聊天机器人表达指令的方式（“提示”）对其性能有重大影响。即使对措辞进行细微调整，也可能对生成的回复质量产生重大影响。例如，将提示从“回答问题”更改为“提供对问题的详细和准确的答案”可以显着改变回复的冗长性和深度。
有帮助的提示是关键： 研究人员已经尝试了不同类型的提示，包括一些旨在提供帮助并引导模型找到正确答案的提示，以及其他一些旨在具有对抗性或误导性的提示。不出所料，有帮助的提示表现更好。例如，像“根据提供的文档，气候变化的主要原因是什么？”这样的提示比“给我讲一个关于气候变化的故事”这样的提示更有可能产生更准确和相关的答案。

3. 找到合适的块：

块大小很重要： 在处理大型文档时，知识库通常被分成更小的文本块，以提高检索效率。研究发现，大约 192 个 tokens（单词或子词）的块大小在为 LLM 提供足够的上下文来理解信息与避免可能使其感到困惑的不相关细节之间取得了良好的平衡。

4. 更新信息：多久更新一次才够？

检索步幅 (Retrieval Stride): 这指的是系统在生成过程中检索新信息的频率。您可能认为更频繁地更新上下文会带来更好的结果，但研究发现事实恰恰相反。更大的步幅（例如，每 5 步检索一次新信息，而不是每一步都检索）通常会带来更好的结果。这可能是因为过多的更新会扰乱生成的文本的流畅性，并使其连贯性降低。

5. 扩展您的搜索：

查询扩展有所帮助（一点点）： 正如我们之前讨论的，查询扩展涉及将相关术语添加到原始查询以扩大搜索范围。研究发现，这种技术可以提高找到相关信息的可能性，但收益通常微乎其微。例如，如果您的原始查询是“最适合家庭的犬种”，查询扩展可能会添加“对家庭友好的狗”、“适合孩子的狗”和“最适合公寓居住的犬种”等术语。这有助于捕获更广泛的相关文档，但可能并不总是导致结果发生显着变化。

6. 从例子中学习（最酷的部分）：

对比上下文学习 (Contrastive In-Context Learning): 这是一种新颖的技术，并且可以说是最近 RAG 研究中最令人兴奋的发现之一。它涉及在生成过程中向聊天机器人展示类似问题的正确和不正确答案的示例。这有助于模型学习区分好信息和坏信息，显着提高其准确性，并能够忽略不相关或误导性的上下文。例如，如果您正在询问聊天机器人关于法国首都的问题，您可能会向其展示正确答案的示例（“法国的首都是巴黎”）和不正确答案的示例（“法国的首都是罗马”）。这有助于模型学习识别正确的信息，并避免犯类似的错误。

7. 说多种语言：

多语言知识库可能很棘手： 已经完成了使用包含多种语言文档（例如英语、法语和德语）的知识库的实验。这对聊天机器人来说可能具有挑战性，可能会导致性能下降。这可能是因为模型必须更加努力地处理和综合来自不同语言的信息。例如，如果聊天机器人被问到一个英文问题，但必须从法文和德文文档中检索信息，它可能难以准确翻译和组合信息。

8. 专注于要点：

专注模式 (Focus Mode): 如前所述，此技术涉及仅从前 k 个文档中检索最相关的句子，而不是使用整个文档。研究表明，这可以通过减少噪音并提供更有针对性的上下文来显着提高生成的答案的质量。例如，如果您正在询问聊天机器人关于第二次世界大战的原因，专注模式可能只会从几个不同的文档中检索最相关的句子，例如那些提到凡尔赛条约、纳粹主义的兴起和入侵波兰的句子。这为聊天机器人提供了简洁而集中的信息集，供其在生成答案时使用。

最佳 RAG 配方：

根据大量实验，以下是一些表现最佳的配置：

对比上下文学习 RAG (Contrastive In-Context Learning RAG): 这已成为明显的赢家，尤其是在需要专业知识的任务中。它擅长辨别正确和不正确的信息，从而产生更准确和基于事实的回复。
专注模式 RAG (Focus Mode RAG): 这是紧随其后的第二名，突出了提供简洁、高度相关信息的重要性。它在精度至关重要的专业领域尤其有效。
查询扩展 RAG (Query Expansion RAG): 这种方法在一般知识问题上显示出希望，证明了扩大搜索范围以提高找到相关信息的机会的价值。
精心设计的提示 (Well-Designed Prompts): 虽然不是特定的 RAG 配置，但精心设计的提示始终如一地在不同的设置中交付了良好的结果，强调了为 LLM 提供清晰有效指令的重要性。

RAG 的未来：

这项研究为构建下一代 AI 助手提供了路线图，这些助手将比以往任何时候都更可靠、信息更丰富且更具适应性。以下是 RAG 领域未来发展的一些令人兴奋的方向：

动态检索 (Dynamic Retrieval): 想象一下，系统可以根据提出的具体问题和对话的上下文，动态调整其检索策略。这将实现更精确和相关的信息检索。
专业任务 (Specialized Tasks): 我们可以期待看到 RAG 被应用于越来越专业的领域，例如医疗诊断、法律研究和科学发现。通过为专家提供强大的 AI 助手，帮助他们更有效地查找和综合信息，这可能会彻底改变这些领域。
自动化优化 (Automated Optimization): 使用像 AutoML（自动化机器学习）这样的技术来自动找到给定任务和数据集的最佳设置。这可以使为不同应用程序部署和优化 RAG 系统变得更加容易。
结合 RAG 方法 (Combining RAG Approaches): 结合两种或多种 RAG 变体（例如，对比上下文学习与专注模式）可能会通过利用每种方法的优势来带来更好的性能。这是一个很有希望的未来研究领域。
研究不同的模型大小 (Studying Different Model Sizes): 深入分析模型大小如何在更广泛的大小范围内影响性能将是很有趣的。
扩展多语言实验 (Extending Multilingual Experiments): 探索 RAG 在更广泛的语言范围内如何表现，以及如何针对多语言设置对其进行优化将是有价值的。
持续学习 (Continual Learning): 最令人兴奋的可能性之一是开发 RAG 系统，这些系统可以在接触新信息时不断学习和适应。这将使它们随着时间的推移变得更加准确和知识渊博，就像一位不断更新其知识的人类专家一样。
可解释性和透明度 (Explainability and Transparency): 随着 AI 系统变得越来越强大和复杂，理解它们如何得出答案变得越来越重要。未来的研究可能会侧重于开发使 RAG 系统更透明和可解释的方法，以便用户可以理解其回复背后的推理，并建立对其输出的信任。

结论：

RAG 是一种强大的技术，可以使 AI 聊天机器人更智能、更可靠和信息更丰富。它就像赋予超级智能 AI 在回答您的问题之前进行研究的能力，结合了大型语言模型的优势和信息检索的力量。通过理解这些原则并不断创新，我们可以创建真正增强人类智能的 AI 助手，并彻底改变我们访问和交互信息的方式。AI 的未来是光明的，而 RAG 正在引领潮流。

目录