为什么需要一种衡量AI的新方法?
关于人工智能(AI)将如何影响就业市场的讨论正变得日益激烈——它会自动化某些任务,取代整个职业,还是创造出全新的工作?要回答这些问题,我们需要准确衡量AI的能力。然而,现有的衡量方法,如宏观的GDP增长,通常是“滞后指标”,它们需要数年甚至数十年的时间才能反映出新技术的全面影响,无法及时告诉我们今天AI的真实水平。
与此同时,传统的AI基准测试(benchmarks)大多像学术考试,它们虽然能量化AI在特定推理任务上的表现,却与真实的工作场景严重脱节。这些测试的主要局限在于:它们要么过于理论化,要么领域过于狭窄,无法评估AI处理现实世界中复杂、多格式、甚至带有主观要求的职业任务的能力。
为了解决这一问题,研究人员推出了GDPval——一个旨在评估AI模型在“真实世界经济价值任务”上表现的全新基准测试。它的核心目标是提供一个更直接、更具前瞻性的衡量标准,帮助我们理解AI在实际工作中的真正价值和潜力。
GDPval的独特之处
GDPval通过以下五个核心优势,提供了一个比以往任何评估都更贴近现实的视角:
- 真实性 (Realism): 任务直接来源于行业专家的真实工作,而非抽象的学术考题,这确保了评估内容与实际工作需求高度相关。
- 代表性广度 (Representative Breadth): 覆盖了对美国GDP贡献最高的9大行业中的44个职业,确保了评估的广泛性和代表性。

- 多模态与复杂性 (Multi-modality & Complexity): 任务要求AI处理各种真实世界的文件格式,如幻灯片(.ppt)、电子表格(.xlsx)、设计文件(.cad)乃至音视频,真实反映了现代知识工作的复杂性。
- 主观性 (Subjectivity): 评估不仅看重结果的正确性,还包括格式、风格、美学和创意等主观因素,这在许多职业中至关重要。
- 高难度与长期性 (Long-horizon Difficulty): 这些任务极具挑战性,平均需要一位人类专家花费7小时才能完成,更能测试出AI处理长期复杂项目的能力。
那么,这样一个复杂而真实的基准测试是如何被创造出来的呢?
GDPval的诞生过程
GDPval的创建过程遵循了一个科学且严谨的流程,以确保其任务的质量和代表性。
- 第一步:锁定经济核心职业 研究人员首先从宏观经济数据入手,筛选出最具代表性的职业:
- 选择关键行业: 首先确定了对美国GDP贡献超过5%的9个核心经济部门,如金融、医疗、制造业等。
- 筛选高价值职业: 在每个行业中,挑选出总薪酬最高且主要从事“数字化工作”的5个职业,共计44个职业。这里的“数字化工作”是基于对美国劳工部O*NET数据库中任务数据的严谨分析,并根据相关性、重要性和频率等因素加权得出的。
- 第二步:从业内专家获取真实任务 为了保证任务的真实性,GDPval招募了一批顶尖的行业专家来创建任务。这些专家的门槛极高,平均拥有14年的专业经验,且大多来自世界知名企业(如Google、高盛、迪士尼等)。他们基于自己日常工作中的真实案例,设计出包含完整请求、参考文件和最终交付成果的任务。
- 第三步:建立严格的质量控制流程 每个任务都必须通过一个迭代式的审核流程,以确保其高质量和真实性。这个流程包括“模型自动筛选”和“平均五次人工专家审核”的双重保障,确保任务描述清晰、难度适中且高度贴近现实。
- 第四步:由专家进行“头对头”的盲审评估 GDPval的主要评估方法是“盲审配对比较”(head-to-head human expert comparison)。在评估时,相关领域的专家会同时看到一份人类专家完成的成果和一份AI生成的成果,但在不知道哪个来自AI的情况下,对两者进行比较和排名。这种盲审方式最大限度地保证了评估的公正性。
经过如此严谨的流程,GDPval最终得出了关于当今AI能力的深刻洞见。
GDPval揭示了当今AI的真实水平
AI与人类专家的差距正在缩小
GDPval对包括GPT-4o、Gemini 2.5 Pro、Grok 4在内的多款前沿模型进行了综合评估。其最核心的发现是:顶尖AI模型的表现在许多知识工作任务上,已经开始接近甚至超越人类行业专家。
在测试中,Claude Opus 4.1 表现最为突出,其完成的交付成果在 47.6% 的任务中被专家评为“优于”或“持平于”人类专家的成果。这表明,在近一半的复杂工作中,顶尖AI已经具备了与经验丰富的专业人士相媲美的能力。
不同的模型也展现了各自的特长:
模型 | 核心优势 |
---|---|
Claude Opus 4.1 | 在美学方面表现出色,尤其擅长生成幻灯片和电子表格等结构化文件。 |
GPT-5 high | 在准确性方面表现突出,尤其是在纯文本任务中能精确遵循指令和正确计算。 |
AI能节省多少时间和成本?
当AI与人类专家协作时,它展现出巨大的效率提升潜力。分析表明,在与无辅助的人类专家相比,采用“先让AI尝试n次,如果不满意再自己修改”这类人机协作的工作流,能够显著节省时间和资金成本。
AI的常见弱点
尽管AI表现出色,但GDPval也揭示了当前模型在处理真实任务时最常见的失败原因:
- 指令遵循失败: 这是一个普遍存在的问题,并且是Claude、Grok和Gemini等模型最主要的失分项。AI有时无法完全理解或执行复杂指令的所有细节。
- 格式错误: 即使是表现最好的模型,也可能在生成文件(如PPT或PDF)时出现布局混乱、文字重叠等格式问题。对于GPT-5 high而言,这是其最主要的弱点。
- 数据处理不当: AI有时会忽略提供的参考文件,或者凭空捏造(幻觉)出不存在的数据。
如何释放AI更强的性能
好消息是,许多AI的弱点可以通过优化使用方法来弥补。研究表明,通过增加AI的“推理时间”、优化“提示词工程(Prompting)”以及改进“脚手架(Scaffolding,即为AI提供更结构化的工作流程)”,可以显著提升AI的表现,甚至消除一些常见的格式错误。
虽然GDPval的结果令人振奋,但我们也需要客观看待其当前的局限性。
GDPval的局限性
为了建立全面且平衡的认知,GDPval的研究团队坦诚地指出了当前版本存在的三个主要局限性:
- 数据集规模有限: 目前的版本仅覆盖44个职业,虽然具有代表性,但仍是知识工作的一小部分,未来需要扩展到更多职业和任务。
- 专注于知识工作: GDPval未包含体力劳动,或那些需要大量隐性知识和人际沟通的任务(如复杂的谈判或团队管理)。
- 任务形式单一: 任务大多是“一次性”的,即给出完整指令后直接输出结果。这与真实工作中常见的、需要通过互动和沟通来逐步明确需求的场景有所不同。
全局视野与未来展望
GDPval的诞生,为我们理解和衡量AI的真实能力提供了一个全新的、更贴近现实的工具。它的核心贡献是多方面的:它创建了一个包含真实世界经济价值任务的全新数据集;对前沿模型进行了能力基准测试,揭示了顶尖模型与人类专家的差距;开展了多项实验来探索提升AI性能的方法;开源了部分任务以促进社区的进一步研究;并发布了自动评分器以降低评估门槛。
这项工作的最终愿景,是希望能够促进对AI模型进展的科学追踪,从而为社会各界评估AI的潜在影响提供更可靠、更及时的数据支持。