从热潮到现实

AI智能体(Agentic AI)正掀起一场革命,它承诺为企业带来前所未有的生产力。然而,在这股热潮之下,现实却更为复杂。虽然一些公司已经初尝胜果,但更多的企业发现,从这项投资中获得实际价值异常艰难。在某些情况下,他们甚至不得不“收缩战线”——在智能体失败的地方重新雇佣员工。

这场技术浪潮的起伏是任何创新发展的必经之路。为了拨开迷雾,麦肯锡分析了超过50个真实的AI智能体构建案例,从中总结出的六条来之不易的经验教训,这些经验来自于真正在一线“埋头苦干”的实践者,帮助管理层避开陷阱,成功驾驭这项变革性技术,并从中捕获真正的商业价值。

经验一:核心在于工作流,而非智能体本身

企业最常见的错误是过分关注闪亮的智能体工具,而忽略了对其所在工作流的整体重新设计。真正的价值并非来自某个孤立的智能体,而是源于从根本上重塑工作的方式——这包括人员、流程和技术的协同。

以一家法律服务提供商为例,他们致力于现代化合同审查流程。该团队没有独立地开发一个工具,而是设计了一套能在工作流中持续学习的系统。用户在文档编辑器中的每一次编辑都会被记录和分类,这为工程师提供了丰富的反馈数据流,用于训练智能体、调整指令并丰富知识库。这种设计创造了一个自我强化的反馈循环:智能体被使用得越频繁,它们就变得越智能、越契合业务需求,久而久之便能将新的专业知识固化下来。

在复杂的工作流中,智能体的角色更像是“胶水”或“指挥家”。借助如AutoGen、LangGraph等开源编排框架,智能体可以将基于规则的系统、分析型AI等不同工具粘合在一起,协同完成任务,交付完整的结果。

经验二:智能体并非万能灵药

一个普遍的陷阱是试图用AI智能体解决所有问题。领导者在决策前应像评估新成员加入高绩效团队那样思考:“需要完成什么工作?团队中每个潜在成员(或智能体)的相对才能是什么?”

这里的关键战略考量在于流程的变异性。对于低变异性、高标准化的工作流(如遵循严格步骤的监管文件申报),基于规则的自动化或预测分析等确定性工具通常是更可靠的选择,因为引入智能体反而可能增加不必要的复杂性和不确定性。相反,对于高变异性、低标准化的工作流(如处理复杂多变的客户咨询),智能体则能大放异彩。

在投入智能体解决方案之前,请先评估任务的具体需求。以下是一些高级别的经验法则,可以帮助你选择合适的工具:

  • 规则明确、输入结构化的重复性任务:使用基于规则的自动化。
  • 输入非结构化,但任务是提取或生成:使用生成式AI或自然语言处理。
  • 任务涉及基于历史数据的分类或预测:使用预测性分析或生成式AI。
  • 输出需要综合、判断或创造性解释:使用生成式AI。
  • 任务涉及多步骤决策,且输入和情境高度可变:使用AI智能体。

关键在于,不要陷入“用或不用智能体”的二元思维。正确的做法是为特定任务找到人员、智能体和其他工具的最佳组合。

经验三:杜绝“AI垃圾”,用评估建立信任

用户常常抱怨智能体输出的“AI垃圾”(低质量内容),这会迅速摧毁信任和采纳率。一个惨痛的教训是:公司必须像投资员工发展一样,大力投资于智能体的开发。正如一位商业领袖所说:

“引入智能体更像是招聘一名新员工,而不是部署一个软件。”

这意味着智能体需要明确的“岗位描述”、入职培训和持续的反馈。要做到这一点,关键在于创建详细的评估体系(evals)。团队需要将顶尖专家的隐性知识进行编码,形成智能体的“培训手册”和“绩效测试”。这不仅仅是简单的准确率检查,而是要衡量更具体的指标,例如在检索增强生成(RAG)系统中的检索准确率,或评估生成任务的幻觉率,以确保输出的可靠性。

一家全球性银行在改造其风险分析流程时就采用了这种方法。每当智能体的建议与人类专家的判断出现分歧时,团队就会识别逻辑差距并完善决策标准。这种持续的反馈和修正,不仅提升了智能体的表现,也赢得了员工的信任。

经验四:让每一步都清晰可追溯、可验证

建立信任和确保质量的另一面,是实现规模化的可观察性。审查少数几个智能体的工作可能很简单,但当公司推广成百上千个智能体时,这项任务就变得异常艰巨,尤其是在只追踪最终结果的情况下。

解决方案是将监控和评估嵌入到工作流的每一步,而不仅仅是在终点。这使得团队能够及早发现错误,并在智能体部署后持续改进其性能。

在前述的法律服务提供商案例中,团队曾观察到系统在处理一批新案件时准确率突然下降。由于他们在工作流的每一步都内置了可观察性工具,团队迅速定位了问题根源:某个用户群体提交的数据质量较低。在改进了数据收集实践并调整了解析逻辑后,智能体的性能很快就恢复了。

经验五:最佳用例,是可复用的用例

为了快速取得进展,公司常常为每个任务创建一个独特的智能体,但这会导致严重的冗余和浪费。更具战略性的方法是识别那些在不同任务中反复出现的共同行动(如数据提取、搜索、分析),并构建可复用的智能体组件。

这意味着要建立一个集中的平台,提供易于开发者使用的经过验证的服务(如LLM可观察性工具或预批准的提示)和资产(如应用模式、可复用代码和培训材料)。将这些能力整合到一个平台中至关重要。根据我们的经验,通过这种方式,企业可以减少30%到50%的非必要开发工作

经验六:人类依然至关重要,但角色正在改变

AI智能体的普及引发了人们对工作未来的焦虑。需要明确的是,人类在工作流程中仍然不可或缺,尤其是在监督模型准确性、确保合规性、进行判断以及处理边缘案例等方面。

然而,一个不容回避的现实是,工作流被智能体改造后,所需的人员数量很可能会改变,通常会减少。因此,公司必须有意识地重新设计工作,以促进人与智能体之间的高效协作。在法律分析工作流的例子中,智能体可以整理核心索赔,但必须由律师复核批准;智能体可以推荐工作计划,但最终决策仍需人类审查调整。

良好的人机协作离不开优秀的用户体验(UX)。一家保险公司开发了交互式视觉元素(如高亮、自动滚动),帮助审查员快速验证AI生成的摘要。当审查员点击某条洞见时,应用会自动定位并高亮原文。这种对用户体验的关注节省了时间,建立了信任,并最终带来了接近95%的用户接受度。

超越技术,拥抱协作

AI智能体领域的成功,不仅仅是一项技术挑战,更是一项战略挑战。它要求我们重新思考工作流程、评估标准以及人与机器的协作模式。那些能够超越技术本身,专注于构建高效协作系统的公司,将在未来的竞争中脱颖而出。

随着这些智能体日益融入我们的工作,最重要的或许不再是问“AI能做什么?”,而是“我们应如何智慧地构建与它们的协作关系?”