推理模型最佳实践

了解何时使用推理模型以及它们与 GPT 模型的比较。

OpenAI 提供两种类型的模型：推理模型 (例如 o1 和 o3-mini) 和 GPT 模型(例如 GPT-4o)。这些模型系列的行为有所不同。

本指南涵盖：

我们的推理模型和非推理 GPT 模型之间的区别
何时使用我们的推理模型
如何有效地提示推理模型

推理模型 vs. GPT 模型

与 GPT 模型相比，我们的 o 系列模型在不同的任务中表现出色，并且需要不同的提示。一个模型系列并不比另一个更好——它们只是不同。

我们训练了我们的 o 系列模型（“规划者”）对复杂的任务进行更长时间和更深入的思考，这使它们在策略制定、复杂问题解决方案的规划以及基于大量模糊信息做出决策方面非常有效。这些模型还可以高精度和准确度地执行任务，使其成为原本需要人类专家的领域的理想选择——例如数学、科学、工程、金融服务和法律服务。

另一方面，我们延迟更低、成本效益更高的 GPT 模型（“主力”）专为直接执行而设计。应用程序可能会使用 o 系列模型来规划解决问题的策略，并使用 GPT 模型来执行特定任务，尤其是在速度和成本比完美准确性更重要时。

如何选择

对于您的用例，什么最重要？

速度和成本 → GPT 模型更快，并且往往成本更低
执行定义明确的任务 → GPT 模型可以很好地处理明确定义的任务
准确性和可靠性 → o 系列模型是可靠的决策者
复杂问题解决 → o 系列模型可以处理模糊性和复杂性

如果在完成任务时速度和成本是最重要的因素，并且您的用例由直接、定义明确的任务组成，那么我们的 GPT 模型最适合您。但是，如果准确性和可靠性是最重要的因素，并且您有一个非常复杂、多步骤的问题要解决，那么我们的 o 系列模型可能适合您。

大多数 AI 工作流程将结合使用这两种模型——o 系列用于能动规划和决策，GPT 系列用于任务执行。

GPT 模型与 o 系列模型搭配使用效果良好

我们的 GPT-4o 和 GPT-4o mini 模型使用客户信息对订单详情进行分类，识别订单问题和退货政策，然后将所有这些数据点输入到 o3-mini 中，以根据政策对退货的可行性做出最终决定。

何时使用我们的推理模型

以下是我们从客户和 OpenAI 内部观察到的一些成功使用模式。这不是对所有可能用例的全面回顾，而是一些关于测试我们的 o 系列模型的实用指导。

1. 驾驭模糊的任务

推理模型尤其擅长处理有限的信息或分散的信息片段，并通过简单的提示，理解用户的意图并处理指令中的任何漏洞。事实上，推理模型通常会在做出不明智的猜测或试图填补信息空白之前提出澄清问题。

“o1 的推理能力使我们的多智能体平台 Matrix 能够在处理复杂文档时生成详尽、格式良好且详细的响应。例如，o1 使 Matrix 能够通过基本提示轻松识别信贷协议中受限支付能力下可用的额度。没有以前的模型如此出色。与其他模型相比，o1 在 52% 的密集信贷协议复杂提示上产生了更强大的结果。”
—Hebbia，法律和金融领域的人工智能知识平台公司

2. 在大海捞针中寻针

当您传递大量非结构化信息时，推理模型非常擅长理解并仅提取最相关的信息来回答问题。

“为了分析公司的收购，o1 审查了数十份公司文件（如合同和租赁协议），以查找可能影响交易的任何棘手条件。该模型的任务是标记关键条款，并在这样做时，在脚注中识别出一个关键的“控制权变更”条款：如果公司被出售，它将必须立即偿还 7500 万美元的贷款。 o1 对细节的极端关注使我们的人工智能智能体能够通过识别关键任务信息来支持金融专业人士。”
—Endex，人工智能金融情报平台

3. 跨大型数据集查找关系和细微差别

我们发现推理模型尤其擅长对数百页密集、非结构化信息的复杂文档进行推理——例如法律合同、财务报表和保险索赔。这些模型尤其擅长在文档之间建立联系，并根据数据中表示的未言明的真理做出决策。

“税务研究需要综合多份文档以产生最终、连贯的答案。我们将 GPT-4o 换成了 o1，发现 o1 在推理文档之间的相互作用以得出在任何单一文档中都不明显的逻辑结论方面要好得多。因此，通过切换到 o1，我们看到了端到端性能提高了 4 倍——令人难以置信。”
—Blue J，税务研究人工智能平台

推理模型还擅长推理细致入微的政策和规则，并将其应用于手头的任务，以便得出合理的结论。

“在财务分析中，分析师经常处理围绕股东权益的复杂情况，并且需要了解相关的法律复杂性。我们使用一个具有挑战性但常见的问题测试了来自不同提供商的约 10 个模型：融资如何影响现有股东，尤其是当他们行使反稀释特权时？这需要推理融资前和融资后估值，并处理循环稀释循环——顶级的金融分析师将花费 20-30 分钟才能弄清楚。我们发现 o1 和 o3-mini 可以完美地做到这一点！这些模型甚至生成了一个清晰的计算表，显示了对 10 万美元股东的影响。”
–BlueFlame AI，投资管理人工智能平台

4. 多步骤能动规划

推理模型对于能动规划和策略制定至关重要。当推理模型被用作“规划者”时，我们看到了成功，它为问题生成详细的多步骤解决方案，然后根据高智能或低延迟是否最重要，为每个步骤选择和分配合适的 GPT 模型（“执行者”）。

“我们在我们的智能体基础设施中使用 o1 作为规划者，让它协调工作流程中的其他模型以完成多步骤任务。我们发现 o1 非常擅长选择数据类型并将大问题分解为更小的块，使其他模型能够专注于执行。”
—Argon AI，制药行业人工智能知识平台

“o1 为 Lindy 的许多能动工作流程提供支持，Lindy 是我们用于工作的人工智能助手。该模型使用函数调用从您的日历或电子邮件中提取信息，然后可以自动帮助您安排会议、发送电子邮件和管理日常任务的其他部分。我们将所有过去导致问题的能动步骤都切换到了 o1，并观察到我们的智能体几乎在一夜之间变得完美无瑕！”
—Lindy.AI，用于工作的人工智能助手

5. 视觉推理

截至今日，o1 是唯一支持视觉推理能力的推理模型。 o1 与 GPT-4o 的不同之处在于，o1 甚至可以掌握最具挑战性的视觉内容，例如结构模糊的图表和表格或图像质量差的照片。

“我们为数百万在线产品（包括奢侈珠宝仿制品、濒危物种和管制物质）自动化风险和合规性审查。 GPT-4o 在我们最困难的图像分类任务中达到了 50% 的准确率。 o1 在不修改我们管道的情况下实现了令人印象深刻的 88% 准确率。”
—SafetyKit，人工智能驱动的风险和合规性平台

从我们自己的内部测试来看，我们已经看到 o1 可以从高度详细的建筑图纸中识别固定装置和材料，以生成全面的物料清单。我们观察到的最令人惊讶的事情之一是，o1 可以通过获取建筑图纸一页上的图例并将其正确应用于另一页而无需明确的指令，从而在不同图像之间建立联系。在下面您可以看到，对于 4x4 PT 木柱，o1 根据图例识别出“PT”代表防腐木材。

o 系列模型正确读取建筑图纸的详细信息

6. 审查、调试和提高代码质量

推理模型在审查和改进大量代码方面尤其有效，考虑到模型较高的延迟，通常在后台运行代码审查。

“我们在 GitHub 和 GitLab 等平台上提供自动化 AI 代码审查。虽然代码审查过程本质上对延迟不敏感，但它确实需要理解跨多个文件的代码差异。这正是 o1 真正闪耀的地方——它能够可靠地检测到代码库的微小变化，这些变化可能会被人工审查员遗漏。在切换到 o 系列模型后，我们能够将产品转化率提高 3 倍。”
—CodeRabbit，人工智能代码审查初创公司

虽然 GPT-4o 和 GPT-4o mini 可能更适合编写代码，因为它们的延迟更低，但我们也看到 o3-mini 在代码生成方面有所提升，适用于对延迟不太敏感的用例。

“o3-mini 始终如一地生成高质量、结论性的代码，并且即使对于非常具有挑战性的编码任务，当问题定义明确时，也经常能够得出正确的解决方案。虽然其他模型可能仅适用于小规模、快速的代码迭代，但 o3-mini 擅长规划和执行复杂的软件设计系统。”
—Windsurf，由 Codeium 构建的协作式能动人工智能驱动的 IDE

7. 评估和基准测试其他模型响应

我们还看到推理模型在基准测试和评估其他模型响应方面表现良好。数据验证对于确保数据集质量和可靠性非常重要，尤其是在医疗保健等敏感领域。传统的验证方法使用预定义的规则和模式，但像 o1 和 o3-mini 这样的高级模型可以理解上下文并对数据进行推理，从而实现更灵活和智能的验证方法。

“许多客户在 Braintrust 中使用 LLM-as-a-judge 作为其评估过程的一部分。例如，一家医疗保健公司可能会使用像 gpt-4o 这样的主力模型来总结患者问题，然后使用 o1 评估摘要质量。一位 Braintrust 客户看到评判者的 F1 分数从使用 4o 的 0.12 提高到使用 o1 的 0.74！在这些用例中，他们发现 o1 的推理能力在发现完成中最细微的差异方面具有颠覆性作用，尤其是在最困难和最复杂的评分任务中。”
—Braintrust，人工智能评估平台

如何有效地提示推理模型

这些模型在直接的提示下表现最佳。一些提示工程技巧，例如指示模型“逐步思考”，可能不会提高性能（有时甚至会阻碍性能）。请参阅下面的最佳实践。

开发者消息是新的系统消息：从 o1-2024-12-17 开始，推理模型支持开发者消息而不是系统消息，以符合模型规范中描述的指挥链行为。
保持提示简单直接：这些模型擅长理解和响应简短、清晰的指令。
避免思维链提示：由于这些模型在内部执行推理，因此提示它们“逐步思考”或“解释你的推理”是不必要的。
使用分隔符以提高清晰度：使用分隔符（如 markdown、XML 标签和章节标题）来清晰地指示输入的不同部分，帮助模型适当地解释不同的部分。
先尝试零样本，如果需要再尝试少样本：推理模型通常不需要少样本示例即可产生良好的结果，因此请尝试先编写不带示例的提示。如果您对所需的输出有更复杂的要求，则在提示中包含一些输入和所需输出的示例可能会有所帮助。只需确保示例与您的提示指令非常一致，因为两者之间的差异可能会产生不良结果。
提供具体指南：如果有您明确希望约束模型响应的方式（例如“提出预算低于 500 美元的解决方案”），请在提示中明确概述这些约束。
非常具体地说明您的最终目标：在您的指令中，尝试为成功的响应提供非常具体的参数，并鼓励模型不断推理和迭代，直到它符合您的成功标准。
Markdown 格式：从 o1-2024-12-17 开始，API 中的推理模型将避免生成带有 markdown 格式的响应。要向模型发出信号，表明您确实希望响应中使用 markdown 格式，请在开发者消息的第一行包含字符串 Formatting re-enabled。

目录