常见问题：Agentic设计模式

什么是“Agentic设计模式”？

Agentic设计模式是一种可重复使用的高级解决方案，用于解决构建智能自主系统（智能体）时常见的问题。这些模式为设计智能体行为提供了结构化框架，就像软件设计模式为传统编程提供解决方案一样。它们帮助开发者构建更健壮、可预测且高效的人工智能智能体。

本指南的主要目标是什么？

本指南旨在提供一个实用的、操作性强的入门教程，用于设计和构建Agentic系统。它超越了理论讨论，提供了具体的架构蓝图，开发者可以利用这些蓝图创建能够可靠地实现复杂目标导向行为的智能体。

本指南的目标读者是谁？

本指南面向构建包含大型语言模型（LLMs）及其他AI组件的应用程序的AI开发者、软件工程师和系统架构师。它适合那些希望从简单的提示-响应交互转向创建复杂自主智能体的人。

本指南讨论了一些关键的Agentic模式有哪些？

根据目录，本指南涵盖了几个关键模式，包括：

反思（Reflection）： 智能体对自身行为和输出进行批判性分析以提升性能的能力。
规划（Planning）： 将复杂目标分解为更小、更易管理的步骤或任务的过程。
工具使用（Tool Use）： 智能体利用外部工具（如代码解释器、搜索引擎或其他API）获取信息或执行自身无法完成的操作的模式。
多智能体协作（Multi-Agent Collaboration）： 让多个专业化智能体协同工作解决问题的架构，通常涉及一个“领导者”或“协调者”智能体。
人类参与（Human-in-the-Loop）： 集成人类监督和干预，允许对智能体的行为进行反馈、纠正和批准。

为什么“规划”是一种重要的模式？

规划至关重要，因为它使智能体能够处理无法通过单一动作解决的复杂、多步骤任务。通过制定计划，智能体可以保持连贯的策略，跟踪进度，并以结构化的方式应对错误或意外障碍。这可以防止智能体陷入困境或偏离用户的最终目标。

对于智能体来说，“工具”和“技能”有什么区别？

虽然这两个术语经常被互换使用，但“工具”通常指智能体可以调用的外部资源（例如天气API、计算器）。而“技能”则是一种更为集成的能力，通常结合工具使用与内部推理来执行特定功能（例如，“预订航班”技能可能涉及使用日历和航空公司API）。

“反思”模式如何提升智能体的性能？

反思是一种自我纠正的形式。在生成响应或完成任务后，智能体可以被提示审查其工作，检查错误、根据某些标准评估质量，或考虑替代方法。这种迭代优化过程有助于智能体生成更准确、相关性更高且质量更好的结果。

反思模式的核心理念是什么？

反思模式赋予智能体退一步批判自身工作的能力。智能体不是一次性生成最终输出，而是先生成一个草稿，然后进行“反思”，识别缺陷、遗漏的信息或需要改进的地方。这种自我纠正过程是提升响应质量和准确性的关键。

为什么简单的“提示链”不足以生成高质量的输出？

简单的提示链（即一个提示的输出成为下一个提示的输入）通常过于基础。模型可能只是重新措辞其之前的输出，而不是真正改进它。真正的反思模式需要更结构化的批判，促使智能体根据具体标准分析其工作，检查逻辑错误或验证事实。

本章提到的两种主要反思类型是什么？

本章讨论了两种主要的反思形式：

“检查你的工作”反思： 这是一种基础形式，智能体仅被要求审查并修正其之前的输出。这是捕捉简单错误的良好起点。
“内部批评者”反思： 这是一种更高级的形式，其中使用一个单独的“批评者”智能体（或专门的提示）来评估“工作者”智能体的输出。可以为批评者提供具体的评估标准，从而实现更严格和更有针对性的改进。

反思如何帮助减少“幻觉”？

通过促使智能体审查其工作，特别是通过将其陈述与已知来源进行比较或检查其自身的推理步骤，反思模式可以显著减少幻觉（编造事实）的可能性。智能体被迫更依赖提供的上下文，减少生成无依据信息的可能性。

反思模式可以应用多次吗？

可以，反思可以是一个迭代过程。可以让智能体多次反思其工作，每次循环进一步优化输出。这对于复杂任务特别有用，因为第一次或第二次尝试可能仍然包含细微错误，或者可以显著改进。

在 AI 智能体的上下文中，什么是规划模式？

规划模式是指让智能体将复杂的高层目标分解为一系列较小的、可操作的步骤。智能体不是试图一次性解决一个大问题，而是首先创建一个“计划”，然后逐步执行计划中的每一步，这是一种更可靠的方法。

为什么复杂任务需要规划？

LLM（大型语言模型）在需要多个步骤或依赖关系的任务中可能会遇到困难。如果没有计划，智能体可能会失去对整体目标的跟踪，遗漏关键步骤，或者无法正确处理一个步骤的输出作为下一个步骤的输入。计划提供了一个清晰的路线图，确保以逻辑顺序满足原始请求的所有要求。

实施规划模式的常见方法是什么？

一种常见的实现方法是让智能体首先以结构化格式（如 JSON 数组或编号列表）生成步骤列表。系统随后可以遍历该列表，逐步执行每个步骤，并将结果反馈给智能体以指导下一步行动。

智能体如何处理执行过程中的错误或变化？

一个健壮的规划模式允许动态调整。如果某一步失败或情况发生变化，智能体可以被提示从当前状态重新规划。它可以分析错误，修改剩余步骤，甚至添加新步骤以克服障碍。

用户可以看到计划吗？

这是一个设计选择。在许多情况下，先向用户展示计划并获得批准是一个很好的实践。这与“人类参与循环”模式一致，使用户在智能体提出的行动计划执行之前能够获得透明性和控制权。

“工具使用”模式包含什么内容？

工具使用模式允许智能体通过与外部软件或 API 交互来扩展其能力。由于 LLM 的知识是静态的，且无法独立执行现实世界的操作，工具为其提供了访问实时信息（例如，Google 搜索）、专有数据（例如，公司数据库）或执行操作（例如，发送电子邮件、安排会议）的能力。

智能体如何决定使用哪种工具？

智能体通常会获得一个可用工具的列表，其中包括每个工具的功能描述以及所需参数。当智能体面对无法通过其内部知识处理的请求时，其推理能力使其能够从列表中选择最适合完成任务的工具。

在此背景中提到的“ReAct”（Reason and Act）框架是什么？

ReAct 是一个集成推理与行动的流行框架。智能体遵循一个循环，包括思考（推理需要完成什么任务）、行动（决定使用哪个工具以及输入什么参数）和观察（查看工具返回的结果）。这个循环会持续进行，直到智能体收集到足够的信息来满足用户的请求。

实现工具使用有哪些挑战？

主要挑战包括：

错误处理： 工具可能会失败、返回意外数据或超时。智能体需要能够识别这些错误，并决定是重试、使用其他工具，还是向用户寻求帮助。
安全性： 赋予智能体访问工具的权限，尤其是执行操作的工具，可能会带来安全隐患。必须设置保护措施、权限管理，并在敏感操作时通常需要人工批准。
提示设计： 必须有效地提示智能体生成格式正确的工具调用（例如，正确的函数名称和参数）。

什么是“人类参与（Human-in-the-Loop，HITL）”模式？

HITL 是一种将人类监督和交互整合到智能体工作流中的模式。智能体并非完全自主，而是在关键节点暂停，向人类寻求反馈、批准、澄清或指导。

为什么 HITL 对智能体系统很重要？

HITL 至关重要，原因包括：

安全性与控制： 对于高风险任务（例如，金融交易、发送正式通信），HITL 确保人类在智能体执行操作前验证其建议的行动。
提高质量： 人类可以提供纠正或细致的反馈，帮助智能体在主观或模糊任务中提升表现。
建立信任： 用户更可能信任并采用一个他们可以引导和监督的 AI 系统。

工作流中哪些节点应该包含人类参与？

常见的人类干预节点包括：

计划批准： 在执行多步骤计划之前。
工具使用确认： 在使用具有现实后果或涉及费用的工具之前。
解决模糊问题： 当智能体不确定如何继续或需要用户提供更多信息时。
最终输出审查： 在将最终结果交付给终端用户或系统之前。

持续的人类干预是否效率低下？

确实可能效率低下，因此关键在于找到合适的平衡点。HITL 应该在关键检查点实施，而不是每个单一动作都需要干预。目标是在人类和智能体之间建立协作伙伴关系，智能体负责大部分工作，人类提供战略指导。

什么是多智能体协作（Multi-Agent Collaboration）模式？

该模式涉及创建一个由多个专业智能体组成的系统，这些智能体协同工作以实现共同目标。与一个试图完成所有任务的“通才”智能体相比，这种模式创建了一个由“专家”智能体组成的团队，每个智能体都有特定的角色或专业领域。

多智能体系统的优势是什么？

模块化与专业化： 每个智能体可以针对其特定任务进行微调和提示（例如，“研究员”智能体、“写作”智能体、“代码”智能体），从而产生更高质量的结果。
降低复杂性： 将复杂的工作流程分解为专门的角色，使整个系统更易于设计、调试和维护。
模拟头脑风暴： 不同的智能体可以针对问题提供不同的视角，从而产生更具创造性和更稳健的解决方案，这类似于人类团队的工作方式。

多智能体系统的常见架构是什么？

一种常见的架构包括一个协调智能体（有时称为“管理者”或“指挥者”）。协调智能体理解整体目标，将其分解并将子任务分配给适当的专业智能体。然后，它收集来自各个专业智能体的结果并将其综合为最终输出。

智能体之间如何进行通信？

通信通常由协调智能体管理。例如，协调智能体可能将“研究员”智能体的输出作为上下文传递给“写作”智能体。共享的“便笺板”或消息总线也是智能体发布其发现的另一种常见通信方法。

为什么评估智能体比评估传统软件程序更困难？

传统软件具有确定性的输出（相同的输入总是产生相同的输出）。智能体，尤其是使用大语言模型（LLM）的智能体，则是非确定性的，其性能可能具有主观性。评估它们需要评估输出的质量和相关性，而不仅仅是技术上的“正确性”。

评估智能体性能的常见方法有哪些？

指南建议了几种方法：

基于结果的评估： 智能体是否成功实现了最终目标？例如，如果任务是“预订航班”，航班是否正确预订了？这是最重要的衡量标准。
基于过程的评估： 智能体的过程是否高效且逻辑合理？它是否使用了正确的工具？是否遵循了合理的计划？这有助于调试智能体可能失败的原因。
人工评估： 让人类根据帮助性、准确性和连贯性等标准对智能体的性能进行评分（例如，1-5分）。这对于面向用户的应用至关重要。

什么是“智能体轨迹”？

智能体轨迹是智能体执行任务时所有步骤的完整日志。它包括所有的思考、行动（工具调用）和观察。分析这些轨迹是调试和理解智能体行为的关键部分。

如何为非确定性系统创建可靠的测试？

虽然无法保证智能体输出的确切措辞，但可以创建检查关键元素的测试。例如，可以编写一个测试来验证智能体的最终响应是否包含特定信息，或者是否成功调用了某个工具并使用了正确的参数。这通常通过在专用测试环境中使用模拟工具来完成。

对智能体进行提示与简单的 ChatGPT 提示有何不同？

对智能体进行提示需要创建一个详细的“系统提示”或宪章，作为其操作说明。这不仅仅是单一的用户查询；它定义了智能体的角色、可用工具、应遵循的模式（如 ReAct 或 Planning）、约束以及其个性。

优秀的智能体系统提示的关键组成部分是什么？

一个强大的系统提示通常包括：

角色与目标: 明确定义智能体的身份及其主要目的。
工具定义: 列出可用工具、工具描述及其使用方法（例如，特定的函数调用格式）。
约束与规则: 明确指示智能体不应该做的事情（例如，“未经批准不得使用工具”，“不得提供财务建议”）。
流程说明: 指导使用的模式，例如，“首先创建计划，然后逐步执行计划。”
示例轨迹: 提供一些成功的“思考-行动-观察”循环示例，可以显著提高智能体的可靠性。

什么是“提示泄露”？

提示泄露是指系统提示的部分内容（例如工具定义或内部指令）在智能体最终向用户的响应中被意外暴露。这可能会让用户感到困惑，并暴露底层实现细节。通过使用单独的提示分别处理推理和生成最终答案，可以有效防止这种情况的发生。

智能体系统的未来趋势是什么？

该指南指出了以下未来趋势：

更具自主性的智能体: 智能体需要更少的人类干预，并能够自主学习和适应。
高度专业化的智能体: 一个可以为特定任务（例如旅行智能体、研究智能体）雇佣或订阅的智能体生态系统。
更好的工具和平台: 开发更复杂的框架和平台，使构建、测试和部署强大的多智能体系统变得更加容易。