AISE FIELD NOTE · LOOP ENGINEERING

LOOP ENGINEERING · 01 / 30

BA + SA + AGENTS DELIVERY SYSTEM

Loop Engineering
概述

概念渊源、方法论与企业落地。

OURWAY RED · SWISS SYSTEM

2026.06

TL;DR

LOOP ENGINEERING · 02 / 30

不是更会 prompt。
而是设计能自驱、可验证、会记忆的循环系统。

Loop Engineering 是 2026 年 6 月被命名的新兴从业者术语。它把工程师从逐轮驱动 agent，推到设计调度系统、反馈系统和状态记忆这一层。

CIO 判断

它更像 Harness Engineering 与 feedback-loop 思想的上层封装，而非独立新学科。

Deck Index

LOOP ENGINEERING · 03 / 30

30 PAGES · FOUR ACTS

四幕结构：从命名到落地

概念渊源

三个公开节点如何把 loops 命名成方法论。

方法论内核

三层循环、harness、feedforward 与 feedback。

证据与风险

厂商自报、RCT、DORA 与失败模式并读。

AISE 落地

BA + SA + Agents 的交付体系、治理与路线图。

Origin Timeline

LOOP ENGINEERING · 04 / 30

HIGH CONFIDENCE

术语来源可以精确落到三天

2026.06.02

Boris Cherny

Anthropic / Claude Code
WorkOS 与 Acquired Unplugged 访谈中提出：工作变成 write loops。

2026.06.07

Peter Steinberger

OpenAI / OpenClaw
公开提醒：不要再提示 coding agents，而要设计提示 agents 的 loops。

2026.06.07

Addy Osmani

Google
发布《Loop Engineering》，完成命名、定义和体系化。

TERM AGE

周级

术语历史极短

NATURE

Practitioner

从业者话语

STATUS

NoPR

尚无同行评议定义

VALUE

High

底层实践真实可用

Two Meanings

LOOP ENGINEERING · 05 / 30

CRITICAL CLARIFICATION

同名词背后有两种含义

A · AGENT LOOP

更早、更技术

指 agent 自身的 plan / act / observe / reflect 控制循环，技术祖先可追溯到 ReAct 范式。

B · LOOP ENGINEERING

2026 年 6 月的新命名

指人退到调度系统设计层：自动触发、状态记忆、子 agent 编排与独立验证。

Method Evolution

LOOP ENGINEERING · 06 / 30

PROMPT → CONTEXT → HARNESS → LOOP

方法论是层层叠加，不是突然改朝换代

01 · PROMPT

单轮指令

工程师逐步告诉 agent 做什么，人控制每一步。

02 · CONTEXT

上下文工程

关键变成：模型看到什么、上下文如何组织。

03 · HARNESS

模型 + 环境

用 guides 和 sensors 把 agent 放进工程环境。

04 · LOOP

自驱循环

在 harness 上加入调度、状态、终止条件和 checker。

Loop Engineering 不是替代前几层，而是把它们包装成可自动触发、可验证、可持续记忆的运行系统。

Nested Loops

LOOP ENGINEERING · 07 / 30

THREE NESTED LOOPS

核心循环不是一个，而是三层嵌套

INNER LOOP

单次 session 内修正

Agent 执行、观察测试或报错、修正实现。

OUTER LOOP

经验沉淀为共享知识

把 session 经验写回 skill、AGENTS.md、知识库。

SCHEDULING LOOP

Loop Engineering 本体

事件触发、状态记忆、maker/checker 分离、自动运转。

Loop Anatomy

LOOP ENGINEERING · 08 / 30

AUTOMATED CONTROL

一个可运行 loop 由六件事组成

不是一个 while 循环，而是触发、隔离、知识、连接、分工和状态记忆共同构成的工程系统。

01 · TRIGGER

Automations

定时、事件、hook、任务队列。

02 · ISOLATE

Worktrees

多 agent 并行时隔离文件冲突。

03 · KNOW

Skills

把项目经验沉淀为可复用说明。

04 · CONNECT

Plugins

连接 issue、数据库、监控、文档。

05 · SPLIT

Sub-agents

maker / checker 分离，避免自评。

06 · REMEMBER

Memory

状态存在 context 之外，长期推进。

Harness Relation

LOOP ENGINEERING · 09 / 30

AGENT = MODEL + HARNESS

Loop 是 Harness 上的调度层

Harness 先定义 agent 能做什么、如何观察后果；Loop Engineering 再把它变成可触发、可记忆、可持续运行的系统。

FEEDFORWARD

Guides

AGENTS.md、类型、lint、架构规则。

CORE

Model + Agent

生成候选实现与执行动作。

FEEDBACK

Sensors

测试、CI、日志、traces、浏览器。

LOOP LAYER

Scheduler + State + Policy

负责触发、停止条件、记忆和升级人工。

Loop Capabilities

LOOP ENGINEERING · 10 / 30

OSMANI FRAME

无人值守 loop 的五个能力 + 一个记忆

Automations

cron、hooks、/loop、Codex Automations 等触发器。

Worktrees

隔离并行 agent，降低文件冲突。

Skills

把项目知识沉淀到可复用说明。

Connectors

MCP 连接 issue、数据库、Slack、监控。

Sub-agents

maker / checker 分工，避免自评。

Memory

状态存在 context 之外，长期推进。

Maker / Checker

LOOP ENGINEERING · 11 / 30

SEPARATE CREATION FROM VERIFICATION

“完成”必须由另一个机制判断

MAKER

负责实现

读任务、改代码、运行局部验证、提交候选结果。它不拥有最终完成判定权。

CHECKER

负责证据

独立读取 diff、测试、lint、类型、E2E、traces，决定是否继续循环或升级人工。

Sensor Stack

LOOP ENGINEERING · 12 / 30

FEEDBACK FIRST

能落地的核心不是 prompt，而是传感器

TEST

单元 / 集成 / E2E

把行为写成机器可验证约束。

STATIC

lint / type / schema

用确定性规则压缩 agent 误差。

RUNTIME

logs / traces / crash

让 agent 看到真实后果。

quality gate

合并前让系统自动拦截。

Evidence Ladder

LOOP ENGINEERING · 13 / 30

同行评议与 RCT

最强，但目前对 Loop Engineering 术语本身几乎没有。

RARE

行业基准与遥测

DORA、Faros、SWE-bench 等更适合作决策锚点。

ANCHOR

厂商自报案例

OpenAI、Anthropic 数据亮眼，但要打折看待。

DISCOUNT

博客与二次解读

用于观察话语扩散，不适合单独支撑投资判断。

WEAK

OpenAI Case

LOOP ENGINEERING · 14 / 30

FRONTIER TEAM

OpenAI 的 agent-first 项目样本

5 个月、约 100 万行代码、约 1,500 个 PR、零人工手写代码，是最常被引用的 harness engineering 实践。

CODE

1MLOC

约 100 万行

1.5K

约 1,500 个

TEAM

3→7

工程师规模

COST

$2-3K/day

约 10 亿 token / 天

CAVEAT

自报、单项目、受控条件；且前 1.5 个月一度比人工慢约 10 倍。

Anthropic Case

LOOP ENGINEERING · 15 / 30

WHEN AI BUILDS ITSELF

Anthropic 的高增速样本

2026 年 6 月材料称：2026 年 5 月超过 80% 合并代码由 Claude 编写，2026 Q2 工程师人均日产出约 8 倍于 2024。

MERGED

80%+

Claude authored

OUTPUT

8×

per engineer / day

TASK

76%

低规格任务成功率

NOTE

Over

官方承认会夸大

最值得借鉴的不是数字本身，而是“每个 PR 的 Claude reviewer + 回溯事故捕获”的验证设计。

METR RCT · 2025

慢
19%

唯一随机对照试验给出反向信号

16 名资深开源开发者使用早期 2025 AI 工具完成任务，实际慢 19%；他们主观以为快了约 20%。

这不否定 agentic delivery，但说明工具收益依赖任务形态、代码库状态、反馈循环强度和验证成本。

DORA Anchor

LOOP ENGINEERING · 17 / 30

AMPLIFIER, NOT MAGIC

DORA 2025 最适合作为决策锚点

THROUGHPUT

吞吐量上升

AI 提升个人生产力与交付吞吐。

INSTABILITY

稳定性承压

AI 与交付不稳定性存在正相关信号。

CONDITION

收益有前提

强测试、快速反馈循环、松耦合架构是释放价值的条件。

AI 是放大器

Flow Evidence

LOOP ENGINEERING · 18 / 30

ALPHACODIUM · 2024

最早有量化证据的 flow 思想

Direct Prompt

19%

AlphaCodium Flow

44%

Relative Lift

2.3×

它不是 Loop Engineering，但证明“测试驱动、多阶段、迭代流程”能显著改善代码生成效果。

Failure Ledger

LOOP ENGINEERING · 19 / 30

Token 成本失控

无人值守循环会持续烧钱，必须有预算、终止条件和告警。

理解债务

代码跑得越快，人对系统意图的理解可能越落后。

AI slop

语法正确但违反架构不变量、重复逻辑、污染边界。

验证瓶颈

Amdahl 定律转移到人工审查、规格确认和合规证明。

Role Shift

LOOP ENGINEERING · 20 / 30

ROLE SHIFT

写代码
下移

工程师上移为意图定义者、验证者和环境设计者。

INTENT

定义意图

把业务目标翻译成验收标准、样例和边界。

ENVIRONMENT

设计环境

把架构约束、工具、数据和权限编码进 harness。

VERIFICATION

审查证据

确认 agent 产出符合 spec、质量门禁和组织风险。

AISE Roles

LOOP ENGINEERING · 21 / 30

BA + SA + AGENTS

AISE 交付体系的角色切分

业务上下文

用户价值、流程、验收条件、异常场景。

技术约束

集成模式、架构边界、数据模型、非功能要求。

AGENT

执行候选

生成实现、测试、迁移脚本、文档草案。

CHECKER

独立验证

diff 审查、证据核对、反例搜索。

HARNESS

工具环境

测试、lint、类型、CI、observability。

MEMORY

组织沉淀

skills、知识库、决策记录、模板资产。

SDD Checkpoints

LOOP ENGINEERING · 22 / 30

SPEC-DRIVEN LOOP

SDD 给 loop 提供人工刹车点

Spec

业务验收

BA 审查。

Plan

技术方案

SA 审查。

Tasks

可执行拆解

agent 可循环。

Implement

证据合并

checker gate。

AISE System

LOOP ENGINEERING · 23 / 30

OPERATING MODEL

把交付体系做成可循环系统

业务规格、架构约束、agent 执行、验证证据和组织记忆形成闭环，而不是一次性提示词。

Value Spec

价值、验收、反例。

Harness Rules

架构、接口、门禁。

AGENTS

Execute

实现、测试、文档。

CHECKPOINT

Spec Review

人工确认业务边界。

CHECKPOINT

Plan Review

人工确认技术边界。

CHECKER

Evidence Gate

测试、CI、diff 审查。

MEMORY

Skills / ADR / Knowledge Base

把每轮经验写回组织资产，支撑下一轮 loop。

Maturity Matrix

LOOP ENGINEERING · 24 / 30

MATURITY

企业落地需要十二个治理格

验收标准

架构规则

测试金字塔

类型系统

CI 门禁

可观测性

权限边界

成本预算

状态记忆

知识沉淀

maker/checker

人工升级

Harness 决定上限

Delivery Loop

LOOP ENGINEERING · 25 / 30

ENTERPRISE LOOP

从需求到合并的标准闭环

Intake

BA 写清业务价值、验收、反例和数据样例。

Plan

SA 把约束转成目录、接口、测试和门禁。

Build

maker agent 在隔离 worktree 生成候选实现。

Verify

checker agent 与 CI 产出可审计证据。

Toolchain Brief

LOOP ENGINEERING · 26 / 30

CLI-FIRST TOOLCHAIN

当前模型最适合 text-in / text-out 工具链

CODE

Codex / Claude Code

执行、编辑、测试、生成 PR。

IDE

Cursor / Kiro / Devin

开发者工作台与任务编排。

REVIEW

Qodo / Claude Reviewer

测试、审查、变更解释。

EVAL

SWE-bench / Vals

模型 + harness 的组合评估。

CONNECT

MCP Connectors

issue、数据库、监控、文档系统。

TRACE

OpenTelemetry

让运行时反馈进入 loop。

Governance Spec

LOOP ENGINEERING · 27 / 30

TECH SPEC SHEET

上线前必须写进制度的七条

BUDGET

每 loop 成本上限

SLA

Stop

终止条件

AUDIT

MRP

Merge-Readiness Pack

权限最小化

agent 只拿任务所需权限。

证据可复现

每次合并可回放测试与日志。

人审边界

高风险变更必须人工确认。

知识回写

经验沉淀到 skill / docs。

Adoption Roadmap

LOOP ENGINEERING · 28 / 30

90-DAY ROADMAP

从一个低风险 loop 开始

0-30

选场景

低风险、高重复、测试完备。

31-60

建 harness

测试、lint、CI、日志、权限。

61-75

双 agent

maker / checker 分离。

76-90

度量扩展

成本、吞吐、缺陷、稳定性。

CIO Decision

LOOP ENGINEERING · 29 / 30

DECISION PRINCIPLE

不要先问模型强不强。
先问反馈循环够不够硬。

REQUIREMENT

自动化测试

REQUIREMENT

快速反馈

REQUIREMENT

松耦合架构

30 / 30

CLOSING

MANIFESTO

把 Agent
放进系统
让系统循环

AISE 的核心资产不是某个提示词，而是一套能触发、执行、验证、记忆并持续改进的工程环境。

END · OURWAY RED

TAKEAWAYS

03 RULES

Loop 是 Harness 的上层封装

真正可操作的是反馈循环、门禁和状态记忆。

证据比速度重要

厂商数据可以参考，RCT 与 DORA 提醒我们重视稳定性。

AISE 要从单任务变成操作系统

BA 定义价值，SA 编码约束，Agents 在可验证环境中循环。

→ END OF DECK

Loop Engineering概述

不是更会 prompt。而是设计能自驱、可验证、会记忆的循环系统。

四幕结构：从命名到落地

概念渊源

方法论内核

证据与风险

AISE 落地

术语来源可以精确落到三天

Boris Cherny

Peter Steinberger

Addy Osmani

同名词背后有两种含义

更早、更技术

2026 年 6 月的新命名

方法论是层层叠加，不是突然改朝换代

单轮指令

上下文工程

模型 + 环境

自驱循环

核心循环不是一个，而是三层嵌套

单次 session 内修正

经验沉淀为共享知识

Loop Engineering 本体

一个可运行 loop 由六件事组成

Automations

Worktrees

Skills

Plugins

Sub-agents

Memory

Loop 是 Harness 上的调度层

Guides

Model + Agent

Sensors

Scheduler + State + Policy

无人值守 loop 的五个能力 + 一个记忆

Automations

Worktrees

Skills

Connectors

Sub-agents

Memory

“完成”必须由另一个机制判断

负责实现

负责证据

能落地的核心不是 prompt，而是传感器

单元 / 集成 / E2E

lint / type / schema

logs / traces / crash

quality gate

同行评议与 RCT

行业基准与遥测

厂商自报案例

博客与二次解读

OpenAI 的 agent-first 项目样本

Anthropic 的高增速样本

慢19%

唯一随机对照试验给出反向信号

DORA 2025 最适合作为决策锚点

吞吐量上升

稳定性承压

收益有前提

最早有量化证据的 flow 思想

Token 成本失控

理解债务

AI slop

验证瓶颈

写代码下移

定义意图

设计环境

审查证据

AISE 交付体系的角色切分

业务上下文

技术约束

执行候选

独立验证

工具环境

组织沉淀

SDD 给 loop 提供人工刹车点

把交付体系做成可循环系统

Loop Engineering
概述

不是更会 prompt。
而是设计能自驱、可验证、会记忆的循环系统。

慢
19%

写代码
下移

不要先问模型强不强。
先问反馈循环够不够硬。

把 Agent
放进系统
让系统循环