附录 B - AI智能体交互:从图形用户界面到现实环境
人工智能智能体通过与数字界面和物理世界的交互,正在执行越来越复杂的任务。它们在感知、处理和行动能力上的提升,正在从根本上改变自动化、人机交互以及智能系统的面貌。本附录探讨了智能体如何与计算机及其环境进行交互,并重点介绍了相关的技术进展和项目。
交互:智能体与计算机
人工智能从对话伙伴发展为主动的任务导向型智能体,其演变得益于智能体-计算机接口(Agent-Computer Interfaces, ACI)的推动。这些接口使得AI能够直接与计算机的图形用户界面(Graphical User Interface, GUI)交互,像人类一样感知并操作图标和按钮等视觉元素。这种新方法超越了传统自动化依赖API和系统调用的僵化开发脚本。通过利用软件的视觉“前门”,AI现在可以以更灵活、更强大的方式自动化复杂的数字任务,这一过程包括几个关键阶段:
- 视觉感知: 智能体首先捕获屏幕的视觉表示,实际上是截取屏幕截图。
- GUI元素识别: 接着,它分析该图像以区分各种GUI元素。智能体必须学会将屏幕视为一个结构化布局,而不是像素的集合,能够区分可点击的“提交”按钮与静态横幅图像,或可编辑的文本字段与简单标签。
- 上下文解释: ACI模块作为视觉数据与智能体核心智能(通常是大型语言模型,Large Language Model, LLM)之间的桥梁,在任务上下文中解释这些元素。它理解放大镜图标通常表示“搜索”,或者一系列单选按钮代表一个选择。该模块对于增强LLM的推理能力至关重要,使其能够基于视觉证据制定计划。
- 动态行动与响应: 智能体随后通过程序控制鼠标和键盘来执行其计划——点击、输入、滚动和拖动。关键在于,它必须不断监控屏幕上的视觉反馈,动态响应变化、加载屏幕、弹出通知或错误,以成功导航多步骤工作流。
这项技术已不再是理论研究。多个领先的AI实验室已开发出能够展示GUI交互能力的功能性智能体:
ChatGPT Operator(OpenAI): 被设想为数字合作伙伴,ChatGPT Operator旨在直接从桌面自动化各种应用程序任务。它能够理解屏幕上的元素,从而执行诸如将电子表格中的数据转移到客户关系管理(CRM)平台、通过航空公司和酒店网站预订复杂的旅行行程、或填写详细的在线表单等操作,而无需为每项服务专门的API访问权限。这使其成为一个通用适配工具,旨在通过接管重复性数字任务来提升个人和企业的生产力。
Google Project Mariner: 作为一个研究原型,Project Mariner在Chrome浏览器中充当智能体(见图1)。它的目的是理解用户意图并自主地代表用户执行基于网页的任务。例如,用户可以要求它在特定预算和社区内找到三套出租公寓;Mariner随后会导航至房地产网站,应用筛选条件,浏览房源,并将相关信息提取到文档中。该项目代表了谷歌在创建真正有帮助且“智能体化”的网页体验方面的探索,使浏览器能够主动为用户工作。

图1:智能体与网页浏览器的交互
Anthropic的计算机使用功能:
此功能使得Anthropic的AI模型Claude能够直接使用计算机的桌面环境。通过捕获屏幕截图以感知屏幕内容,并以编程方式控制鼠标和键盘,Claude可以协调跨多个不相关应用程序的工作流程。用户可以要求它分析PDF报告中的数据,打开电子表格应用程序对数据进行计算,生成图表,然后将图表粘贴到电子邮件草稿中——这一系列任务以前需要持续的人工输入才能完成。
浏览器使用功能:
这是一个开源库,提供了高级API用于程序化的浏览器自动化。它使AI智能体能够通过访问和控制文档对象模型(DOM)与网页交互。该API将复杂的低级浏览器控制协议命令抽象为更简化和直观的功能集。这使得智能体能够执行复杂的操作序列,包括从嵌套元素中提取数据、提交表单以及跨多个页面进行自动导航。因此,该库能够将非结构化的网页数据转化为结构化格式,供AI智能体系统化地处理和用于分析或决策。
交互:智能体与环境
超越计算机屏幕的限制,AI智能体正被设计为能够与复杂、动态的环境进行交互,通常模拟现实世界。这需要先进的感知、推理和执行能力。
Google的Project Astra是一个推动智能体与环境交互边界的典范项目。Astra旨在创建一个在日常生活中具有帮助作用的通用AI智能体,利用多模态输入(视觉、声音、语音)和输出来理解并在上下文中与世界互动。该项目专注于快速理解、推理和响应,使智能体能够通过摄像头和麦克风“看到”和“听到”周围环境,并通过自然对话提供实时帮助。Astra的愿景是创建一个能够无缝协助用户完成任务的智能体,从寻找丢失物品到调试代码,通过理解其观察到的环境超越简单的语音命令,实现对用户即时物理环境的真正理解。
Google的Gemini Live将标准的AI交互转变为流畅且动态的对话。用户可以与AI进行自然的语音交流,并以最小的延迟接收响应,甚至可以在对话中途打断或更改话题,促使AI立即适应。该界面不仅限于语音,还允许用户通过使用手机摄像头、共享屏幕或上传文件来提供视觉信息,从而进行更具上下文意识的讨论。更高级版本甚至能够感知用户的语气,并智能地过滤掉不相关的背景噪音,以更好地理解对话。这些功能结合在一起,创造了丰富的交互体验,例如用户只需用相机指向任务即可获得实时指导。
OpenAI的GPT-4o模型是一个设计用于“全方位”交互的替代方案,意味着它可以跨语音、视觉和文本进行推理。它以低延迟处理这些输入,接近人类响应时间,从而实现实时对话。例如,用户可以向AI展示实时视频流以询问正在发生的事情,或将其用于语言翻译。OpenAI为开发者提供了一个“实时API”,用于构建需要低延迟语音到语音交互的应用程序。
OpenAI的ChatGPT Agent
OpenAI的ChatGPT Agent在架构上相较于其前代产品实现了显著的进步,集成了多项新功能。其设计包含几个关键功能模块:具备自主浏览实时互联网以提取数据的能力,能够动态生成并执行计算代码以完成数据分析等任务,以及直接与第三方软件应用程序交互的功能。这些功能的整合使得该智能体能够根据单一用户指令协调并完成复杂的连续工作流。因此,它可以自主管理整个流程,例如进行市场分析并生成相应的演示文稿,或规划物流安排并执行必要的交易。
与发布同时,OpenAI积极应对此类系统固有的新兴安全问题。随附的“系统卡”(System Card)详细列出了具有在线操作能力的AI可能带来的潜在风险,并承认其可能被滥用的新途径。为减轻这些风险,智能体的架构中设计了多项安全保障措施,例如要求用户对某些类别的操作进行明确授权,并部署强大的内容过滤机制。公司目前正在与初始用户群体合作,通过反馈驱动的迭代过程进一步优化这些安全协议。
Seeing AI
微软推出的免费移动应用Seeing AI旨在通过实时叙述周围环境,为盲人或低视力人士提供帮助。该应用利用设备摄像头的人工智能功能来识别并描述各种元素,包括物体、文本,甚至是人。其核心功能包括读取文档、识别货币、通过条形码识别产品,以及描述场景和颜色。通过增强视觉信息的可访问性,Seeing AI最终帮助视障用户实现更大的独立性。
Anthropic的Claude 4系列
Anthropic的Claude 4是另一款具备高级推理和分析能力的替代方案。尽管其历史上主要专注于文本处理,Claude 4现已具备强大的视觉功能,能够处理来自图像、图表和文档的信息。该模型适合处理复杂的多步骤任务并提供详细分析。虽然与其他模型相比,其实时对话功能并非主要关注点,但其底层智能旨在构建高度能力的AI智能体。
Vibe Coding:与AI进行直观开发
除了直接与GUI和物理世界交互之外,一种新的开发软件方式正在兴起:vibe coding。这种方法摒弃了精确的逐步指令,而是依赖开发者与AI编码助手之间更直观、对话式和迭代的交互。开发者提供一个高层次的目标、期望的“氛围”或一般方向,AI则生成与之匹配的代码。
这种过程的特点包括:
- 对话式提示: 开发者可能不再编写详细的规范,而是说类似“创建一个简单、现代感的应用程序登录页面”或“重构这个函数,使其更符合 Python 风格并更易读”的话。AI 会理解“现代”或“Pythonic”的“氛围”,并生成相应的代码。
- 迭代优化: AI生成的初始输出通常是一个起点。开发者随后会用自然语言提供反馈,例如,“这很不错,但能不能把按钮改成蓝色?”或者“给这个加一些错误处理。”这种来回的交流会持续进行,直到代码符合开发者的期望。
- 创造性合作: 在氛围编码中,AI充当创造性合作伙伴,提出开发者可能未曾考虑过的想法和解决方案。这能够加速开发过程,并带来更具创新性的成果。
- 关注“是什么”,而非“怎么做”: 开发者专注于期望的结果(“是什么”),而将实现细节(“怎么做”)交给AI。这种方式允许快速原型开发,并探索不同的实现方法,而无需陷入模板代码的细节中。
- 可选的记忆库: 为了在较长的交互中保持上下文一致性,开发者可以使用“记忆库”存储关键信息、偏好或约束。例如,开发者可以将特定的编码风格或项目需求保存到AI的记忆中,确保未来生成的代码与既定“氛围”保持一致,而无需重复指令。
氛围编码随着强大AI模型(如GPT-4、Claude和Gemini)的兴起而变得越来越受欢迎,这些模型已经被集成到开发环境中。这些工具不仅仅是自动补全代码,它们还积极参与到软件开发的创造性过程中,使开发更加便捷和高效。这种新的工作方式正在改变软件工程的本质,强调创造力和高层次的思维,而非对语法和API的机械记忆。
关键要点
- AI智能体正在从简单的自动化发展为通过图形用户界面直观地控制软件,就像人类一样。
- 下一个前沿领域是现实世界的交互,例如谷歌的Astra项目使用摄像头和麦克风来观察、聆听并理解物理环境。
- 领先的科技公司正在将这些数字和物理能力融合,创建能够无缝操作数字和物理领域的通用AI助手。
- 这一转变正在创造一种新的主动型、上下文感知的AI伴侣,能够在用户日常生活中协助完成广泛的任务。
结论
AI智能体正在经历重大变革,从基础自动化转向与数字和物理环境的复杂交互。通过利用视觉感知操作图形用户界面,这些智能体现在可以像人类一样操控软件,无需传统的API。主要的技术实验室正在开拓这一领域,开发能够直接在用户桌面上自动化复杂、多应用工作流的智能体。同时,下一个前沿领域正在扩展到物理世界,像谷歌的Astra项目这样的计划正在利用摄像头和麦克风与周围环境进行上下文交互。这些先进系统旨在实现类似人类互动的多模态实时理解。
最终愿景是实现数字能力与物理能力的融合,打造能够在用户所有环境中无缝运行的通用 AI 助手。这一演变还通过“情感编码”(vibe coding)重新定义了软件开发本身,这是一种开发者与 AI 之间更直观、更具对话性的合作方式。这种新方法优先考虑高层次目标和创造性意图,使开发者能够专注于期望的结果,而非实现细节。这种转变加速了开发进程,并通过将 AI 视为创造性伙伴来促进创新。最终,这些进步正在为一个新时代铺平道路——一个拥有主动性、上下文感知能力的 AI 伴侣,可以在日常生活中协助完成广泛任务。
参考文献
- Open AI Operator, https://openai.com/index/introducing-operator/
- Open AI ChatGPT Agent: https://openai.com/index/introducing-chatgpt-agent/
- Browser Use: https://docs.browser-use.com/introduction
- Project Mariner, https://deepmind.google/models/project-mariner/
- Anthropic Computer use: https://docs.anthropic.com/en/docs/build-with-claude/computer-use
- Project Astra, https://deepmind.google/models/project-astra/
- Gemini Live, https://gemini.google/overview/gemini-live/?hl=en
- OpenAI's GPT-4, https://openai.com/index/gpt-4-research/
- Claude 4, https://www.anthropic.com/news/claude-4