过去一年,我们与数十个团队合作,在各行各业构建大型语言模型(LLM)智能体。我们发现,最成功的实现并非采用复杂的框架或专门的库,而是基于简单、可组合的模式构建的。

在这篇文章中,我们将分享从与客户合作和自行构建智能体的过程中学到的经验,并为开发者提供构建有效智能体的实用建议。

什么是智能体?

对“智能体”的定义有多种。一些客户将智能体定义为完全自主的系统,可以在较长时间内独立运行,并使用各种工具来完成复杂的任务。另一些客户则使用该术语来描述更具规范性的实现,这些实现遵循预定义的工作流程。在 Anthropic,我们将所有这些变体都归类为 智能体系统,但会在架构上对 工作流程智能体 进行重要的区分:

  • 工作流程 是指通过预定义的代码路径编排 LLM 和工具的系统。
  • 智能体 则指 LLM 动态指导其自身流程和工具使用的系统,它们掌控着完成任务的方式。

下面,我们将详细探讨这两种类型的智能体系统。在附录 1(“智能体的实践”)中,我们描述了客户发现使用这些系统具有特殊价值的两个领域。

何时(以及何时不)使用智能体

在使用 LLM 构建应用程序时,我们建议尽可能采用最简单的解决方案,仅在需要时增加复杂性。这可能意味着根本不需要构建智能体系统。智能体系统通常以延迟和成本为代价来换取更好的任务性能,您应该考虑这种权衡何时有意义。

当需要更高的复杂性时,对于定义明确的任务,工作流程提供可预测性和一致性,而当需要大规模的灵活性和模型驱动的决策时,智能体是更好的选择。然而,对于许多应用程序来说,通过检索和上下文示例优化单个 LLM 调用通常就足够了。

何时以及如何使用框架

有许多框架可以使智能体系统更容易实现,包括:

  • LangChain 的 LangGraph
  • Amazon Bedrock 的 AI Agent 框架
  • Rivet,一个拖放式 GUI LLM 工作流程构建器;以及
  • Vellum,另一个用于构建和测试复杂工作流程的 GUI 工具。

这些框架通过简化标准的底层任务(如调用 LLM、定义和解析工具以及将调用链接在一起)使入门变得容易。然而,它们通常会创建额外的抽象层,这可能会掩盖底层的提示和响应,从而使调试变得更加困难。它们也可能使人们更容易在简单设置就足够的情况下添加复杂性。

我们建议开发人员从直接使用 LLM API 开始:许多模式可以用几行代码实现。如果您确实使用了框架,请确保您理解底层的代码。对底层原理的错误假设是客户错误的常见来源。

请参阅我们的 cookbook 以获取一些示例实现。

构建块、工作流程和智能体

在本节中,我们将探讨我们在生产环境中看到的智能体系统的常见模式。我们将从我们的基础构建块——增强型 LLM 开始,逐步增加复杂性,从简单的组合工作流程到自主智能体。

构建块:增强型 LLM

智能体系统的基本构建块是通过检索、工具和记忆等增强功能增强的 LLM。我们目前的模型可以主动使用这些功能——生成自己的搜索查询、选择合适的工具以及确定要保留哪些信息。

增强型 LLM 的示意图

我们建议关注实现的两个关键方面:根据您的特定用例定制这些功能,并确保它们为您的 LLM 提供一个简单、文档完善的接口。虽然实现这些增强功能的方法有很多,但其中一种方法是通过我们最近发布的 模型上下文协议,它允许开发人员通过简单的 客户端实现 与不断增长的第三方工具生态系统集成。

在本文的剩余部分,我们将假设每次 LLM 调用都可以访问这些增强功能。

工作流程:提示链

提示链将一个任务分解为一系列步骤,其中每个 LLM 调用处理前一个调用的输出。您可以在任何中间步骤中添加程序化检查(参见下图中的“gate”),以确保流程仍在正轨上。

提示链工作流程的示意图

何时使用此工作流程: 此工作流程非常适合可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每次 LLM 调用成为一个更容易的任务来权衡延迟以获得更高的准确性。

提示链有用的示例:

  • 生成营销文案,然后将其翻译成不同的语言。
  • 编写文档大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。

工作流程:路由

路由对输入进行分类,并将其定向到专门的后续任务。此工作流程允许关注点分离,并构建更专业的提示。如果没有此工作流程,优化一种类型的输入可能会损害其他输入的性能。

路由工作流程的示意图

何时使用此工作流程: 路由适用于存在可以更好地区分处理的独特类别,并且可以通过 LLM 或更传统的分类模型/算法准确处理分类的复杂任务。

路由有用的示例:

  • 将不同类型的客户服务查询(一般问题、退款请求、技术支持)定向到不同的下游流程、提示和工具。
  • 将简单/常见的问题路由到像 Claude 3.5 Haiku 这样的小型模型,将困难/不寻常的问题路由到像 Claude 3.5 Sonnet 这样功能更强大的模型,以优化成本和速度。

工作流程:并行化

LLM 有时可以同时处理一项任务,并通过编程方式聚合它们的输出。这种工作流程,即并行化,主要体现在两个关键变体中:

  • 分段:将任务分解为并行运行的独立子任务。
  • 投票: 多次运行相同的任务以获得不同的输出。

并行化工作流程的示意图

何时使用此工作流程: 当可以并行化分割的子任务以提高速度,或者当需要多个视角或尝试以获得更高置信度的结果时,并行化是有效的。对于具有多个考虑因素的复杂任务,通常当每个考虑因素由单独的 LLM 调用处理时,LLM 的性能会更好,从而可以专注于每个特定方面。

并行化有用的示例:

  • 分段
    • 实施护栏,其中一个模型实例处理用户查询,而另一个模型实例筛选它们以查找不适当的内容或请求。这往往比让同一个 LLM 调用同时处理护栏和核心响应效果更好。
    • 自动化评估以评估 LLM 性能,其中每个 LLM 调用评估模型在给定提示下性能的不同方面。
  • 投票
    • 审查一段代码是否存在漏洞,其中几个不同的提示审查代码并在发现问题时标记代码。
    • 评估给定内容是否不适当,使用多个提示评估不同的方面或需要不同的投票阈值来平衡假阳性和假阴性。

工作流程:协调器-工作者

在协调器-工作者工作流程中,中央 LLM 动态地分解任务,将其委派给工作者 LLM,并综合它们的结果。

协调器-工作者工作流程的示意图

何时使用此工作流程: 此工作流程非常适合您无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量以及每个文件中更改的性质可能取决于任务)。尽管在拓扑结构上相似,但与并行化的关键区别在于其灵活性——子任务不是预定义的,而是由协调器根据特定输入确定的。

协调器-工作者有用的示例:

  • 每次都对多个文件进行复杂更改的编码产品。
  • 涉及从多个来源收集和分析信息以获取可能相关信息的搜索任务。

工作流程:评估器-优化器

在评估器-优化器工作流程中,一个 LLM 调用生成响应,而另一个 LLM 调用在循环中提供评估和反馈。

评估器-优化器工作流程的示意图

何时使用此工作流程: 当我们有明确的评估标准,并且迭代改进提供了可衡量的价值时,此工作流程特别有效。良好契合的两个迹象是,首先,当人类明确表达他们的反馈时,LLM 响应可以被显著改进;其次,LLM 可以提供此类反馈。这类似于人类作者在撰写润色过的文档时可能经历的迭代写作过程。

评估器-优化器有用的示例:

  • 文学翻译,其中存在翻译 LLM 最初可能无法捕捉到的细微差别,但评估器 LLM 可以提供有用的批评。
  • 需要多轮搜索和分析以收集全面信息的复杂搜索任务,其中评估器决定是否需要进一步搜索。

智能体

随着 LLM 在关键能力方面的成熟——理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复,智能体正在生产环境中涌现。智能体的工作从人类用户的命令或互动讨论开始。一旦任务明确,智能体就会独立计划和操作,并可能返回给人类以获取更多信息或判断。在执行过程中,对于智能体在每个步骤中从环境中获取“真实情况”(例如工具调用结果或代码执行)以评估其进度至关重要。智能体可以在检查点或遇到阻碍时暂停以获取人工反馈。任务通常在完成时终止,但也常见包括停止条件(例如最大迭代次数)以保持控制。

智能体可以处理复杂的任务,但它们的实现通常很简单。它们通常只是在循环中基于环境反馈使用工具的 LLM。因此,清晰而周到地设计工具集及其文档至关重要。我们在附录 2(“提示工程你的工具”)中扩展了关于工具开发的最佳实践。

自主智能体的示意图

何时使用智能体: 智能体可用于开放式问题,这些问题很难或不可能预测所需的步骤数量,并且您无法硬编码固定路径。LLM 可能会运行多个回合,并且您必须对其决策制定有一定的信任度。智能体的自主性使其成为在可信环境中扩展任务的理想选择。

智能体的自主性意味着更高的成本以及潜在的复合错误。我们建议在沙箱环境中进行广泛的测试,并采取适当的护栏措施。

智能体有用的示例:

以下示例来自我们自己的实现:

编码智能体的高级流程

组合和定制这些模式

这些构建块不是规定性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何 LLM 功能一样,成功的关键在于衡量性能并迭代实现。重申一遍:您应该考虑仅在能够显著改善结果时才增加复杂性。

总结

在 LLM 领域取得成功并不在于构建最复杂的系统。而在于构建适合您需求的 正确 系统。从简单的提示开始,通过全面的评估对其进行优化,并且仅在简单的解决方案不足时才添加多步骤智能体系统。

在实施智能体时,我们尝试遵循三个核心原则:

  1. 在智能体的设计中保持 简洁性
  2. 通过明确展示智能体的规划步骤来优先考虑 透明度
  3. 通过全面的工具 文档和测试,精心设计您的人工智能体-计算机接口(ACI)。

框架可以帮助您快速入门,但在转向生产环境时,请毫不犹豫地减少抽象层并使用基本组件进行构建。通过遵循这些原则,您可以创建不仅功能强大而且可靠、可维护并受到用户信任的智能体。

致谢

由 Erik Schluntz 和 Barry Zhang 撰写。这项工作借鉴了我们在 Anthropic 构建智能体的经验以及我们客户分享的宝贵见解,对此我们深表感谢。

附录 1:智能体的实践

我们与客户的合作揭示了 AI 智能体的两个特别有前景的应用,它们证明了上述讨论的模式的实际价值。这两个应用都说明了智能体如何为需要对话和操作、具有明确的成功标准、支持反馈循环以及集成有意义的人工监督的任务增加最大的价值。

A. 客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这自然适合更开放式的智能体,因为:

  • 支持交互自然地遵循对话流程,同时需要访问外部信息和操作;
  • 可以集成工具以提取客户数据、订单历史记录和知识库文章;
  • 可以通过编程方式处理诸如发放退款或更新工单之类的操作;并且
  • 可以通过用户定义的解决方案来清晰地衡量成功。

一些公司已经通过基于使用量的定价模型证明了这种方法的可行性,该模型仅对成功的解决方案收费,这表明他们对其智能体的有效性充满信心。

B. 编码智能体

软件开发领域已经显示出 LLM 功能的巨大潜力,其能力从代码完成发展到自主解决问题。智能体特别有效,因为:

  • 可以通过自动化测试来验证代码解决方案;
  • 智能体可以使用测试结果作为反馈来迭代解决方案;
  • 问题空间是明确且结构化的;并且
  • 可以客观地衡量输出质量。

在我们自己的实现中,智能体现在可以仅根据拉取请求的描述来解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。然而,尽管自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录 2:提示工程你的工具

无论您构建的是哪种智能体系统,工具都可能是您智能体的重要组成部分。工具 使 Claude 能够通过在我们 API 中指定其确切的结构和定义来与外部服务和 API 交互。当 Claude 响应时,如果它计划调用工具,则会在 API 响应中包含一个 工具使用块。工具定义和规范应与您的整体提示一样受到提示工程的关注。在本简短的附录中,我们将描述如何提示工程您的工具。

通常有几种方法可以指定相同的操作。例如,您可以通过编写 diff 或重写整个文件来指定文件编辑。对于结构化输出,您可以在 markdown 或 JSON 中返回代码。在软件工程中,这些差异是表面的,可以无损地从一种格式转换为另一种格式。然而,某些格式比其他格式更难让 LLM 编写。编写 diff 需要在编写新代码之前知道块头中有多少行正在更改。与 markdown 相比,在 JSON 中编写代码需要对换行符和引号进行额外的转义。

我们对决定工具格式的建议如下:

  • 在模型陷入困境之前,给它足够的 tokens 来“思考”。
  • 使格式接近模型在互联网上的文本中自然出现的形式。
  • 确保没有格式化的“开销”,例如必须准确计算数千行代码,或对它编写的任何代码进行字符串转义。

一个经验法则是考虑人为计算机界面(HCI)需要花费多少精力,并计划投入同样多的精力来创建良好的人工智能体-计算机接口(ACI)。以下是一些关于如何做到这一点的想法:

  • 站在模型的角度思考。根据描述和参数,使用此工具是否显而易见,还是您需要仔细考虑?如果是这样,那么模型也很可能如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
  • 您如何更改参数名称或描述以使事情更明显?将其视为为团队中的初级开发人员编写出色的文档字符串。当使用许多相似的工具时,这一点尤其重要。
  • 测试模型如何使用您的工具:在我们的 workbench 中运行许多示例输入,以查看模型犯了哪些错误并进行迭代。
  • 防错 您的工具。更改参数,使其更难犯错。

在为 SWE-bench 构建我们的智能体时,我们实际上花费了比优化整体提示更多的时间来优化我们的工具。例如,我们发现在使用相对文件路径的工具在智能体移出根目录后会犯错。为了解决这个问题,我们更改了工具以始终要求绝对文件路径——我们发现模型完美地使用了这种方法。