AI Agent Loops 最新进展：所有 Agent 都在”循环”，但只有少数在”学习”

程默 — Tue, 30 Jun 2026 13:37:41 +0000

一、AI Agent Loops 已经成为行业共识

如果说 2024 年是"AI Agent 元年"，那 2025 年到 2026 年就是"AI Agent Loops 普及年"。现在几乎所有的 AI Agent 产品都在谈论"循环"——让代理不仅仅是回答一次问题，而是进入一个持续迭代的执行流程。

这个共识的形成，主要来自几个里程碑事件：

1. Andrew Ng 的 Agentic Design Patterns（2024 年 3 月）：系统化提出反思、工具使用、规划、多代理协作四大模式，用数据证明 Agent 循环可以让 GPT-3.5 的编码能力超过 GPT-4

2. Reflexion 论文（Noah Shinn 等，2023）：开创了"语言强化学习"方法，智能体通过语言反馈在试错中学习

3. Anthropic 的 Building effective agents（2024 年 12 月）：从 Prompt Chaining 到 Evaluator-Optimizer 到自主 Agent，正式将 Agent 循环纳入主流技术路线

4. Auto-GPT 的无限循环模式：最早将 LLM-in-a-loop 推向主流的产品

到了 2026 年，几乎没有哪个正经的 AI Agent 产品敢说自己不支持循环。但问题来了——大家都是怎么"循环"的？效果一样吗？

访问 MotoAgent 了解真正的带学习回路的 Agent 循环。

二、"循环"和"学习"是两回事

在深入各家产品之前，我们需要先厘清一个关键区别：

执行循环 vs 学习循环

对比维度	执行循环	学习循环
工作方式	反复执行相同流程	每次循环后总结经验
跨会话	每次从零开始	记忆和技能持续积累
改进机制	无	自动创建和优化技能
效果变化	始终不变	越用越好
代表产品	AutoGPT、Claude Code	Hermes Agent（Nous Research）

很多所谓支持"Agent Loop"的产品，实际上只是把 LLM 放在一个循环里反复调用——每次执行同样的步骤，无法积累经验，下次遇到同样的问题还是从头再来。这不是真正的"学习"，只是"重复"。

而真正意义上的 AI Agent Loops，应该是：每次循环都有信息沉淀下来，下次循环变得更好。

三、各主流产品的 Loop 实现情况

现在市面上主流 AI Agent 产品的 Loop 实现情况究竟如何？我们来逐一分析。

Hermes Agent（Nous Research）—— 唯一内置完整学习回路

Hermes Agent 是目前唯一一个真正实现了"学习循环"的主流 Agent。它的循环机制是：

1. 执行阶段：完成任务，调用工具，生成输出

2. 后台回顾：每次对话结束后，自动运行自改进回顾

3. 记忆写入：将有用的信息自动存入 MEMORY.md 或 USER.md

4. 技能创建：从成功完成的任务中创建可复用的技能

5. 技能改进：下次使用技能时，自动修正和优化

6. 策展归档：长时间不用的技能自动归档

这套机制确保了每完成一次任务，Agent 的能力就有一点点提升。在 MotoAgent 中使用的就是 Hermes Agent 后端。

Claude Code（Anthropic）—— 执行循环，无学习能力

Claude Code 支持 Evaluator-Optimizer 模式，可以在执行过程中反复评估和优化输出。但它没有跨会话的记忆和技能积累机制，每次会话都是独立的。属于"执行循环"范畴。

Codex CLI（OpenAI）—— 执行循环，会话级上下文

Codex CLI 有一个执行器架构，支持 MCP 工具调用循环。但它的记忆仅限于会话级别，不支持跨会话的知识积累。同样属于"执行循环"。

LangChain / LangGraph —— 框架层支持，需自行构建

LangGraph 提供了非常灵活的循环编排能力——通过有向图状态机和检查点机制，开发者可以构建各种复杂的循环流程。但它是一个框架，不是开箱即用的产品。你需要自己实现记忆、技能、学习等上层逻辑。

AutoGPT —— 无限循环的先驱

AutoGPT 是最早将 LLM-in-a-loop 推向主流的产品。它的核心模式是"目标分解 -> 执行 -> 观察 -> 再执行"的循环。但它的问题是：每次循环之间没有真正的学习发生，长时间运行可能会出现重复和漂移。

CrewAI —— 多代理协作循环

CrewAI 的循环体现在多代理之间的协作上——不同角色的代理组成团队，通过层级流程循环完成复杂任务。但在单个代理层面，它没有内置的学习机制。

四、各产品 Loop 能力对比

产品	循环类型	跨会话记忆	技能自我改进	后台自动学习	循环可控性
Hermes Agent	学习循环	是（MEMORY.md + FTS5）	是	是（每次对话后）	高（自然语言管理）
Claude Code	执行循环	否（会话级）	否	否	中（CLI 控制）
Codex CLI	执行循环	否（会话级）	否	否	中（CLI 控制）
LangGraph	框架，可构建	需自行实现	需自行实现	需自行实现	高（开发者控制）
AutoGPT	执行循环	有限（平台层）	否	否	低（易漂移）
CrewAI	协作循环	需外部存储	否	否	中（配置驱动）

从对比可以清楚地看到：支持"执行循环"的产品很多，但真正支持"学习循环"的只有 Hermes Agent 一个。

五、为什么学习循环这么难实现

你可能会问：既然学习循环这么好，为什么其他产品不做？

原因有几个：

1. 技术复杂度高

学习循环不是简单的"存个历史记录"，而是需要一整套基础设施：

持久化记忆系统（什么该记、什么不该记）
技能生成和评估机制（怎么判断一个经验值得固化）

记忆压缩和合并（记忆空间有限，需要去重和合并）
跨会话检索（如何找到几个月前的相关经验）

2. 成本控制挑战

每次对话后都运行后台回顾，意味着额外的 LLM 调用成本。Hermes Agent 在这方面做了精妙的设计——可以配置使用更便宜的模型来做回顾，同时利用缓存减少开销。

3. 学习质量难以保证

不是所有经验都值得学习。如果 Agent 学到了错误的东西，反而会降低后续的表现。这就需要一套有效的评估和策展机制——也就是 Hermes Agent 的"技能策展"系统，30 天未使用的技能自动标记为陈旧，90 天自动归档。

六、MotoAgent 让 AI Loops 变得人人可用

虽然 AI Agent Loops 是个技术性很强的概念，但在 MotoAgent 中，你不需要理解这些底层原理就能享受它带来的好处。

在 MotoAgent 中创建一个 Agent，选择 Hermes 后端：

做过的事情会被记住——不需要重复交代
做过的任务会变成技能——下次更快更好

对话越多进步越大——越用越聪明

MotoAgent 把 Hermes Agent 的学习循环能力和微信、飞书等日常通讯工具结合在了一起。你不需要懂技术，只需要像聊天一样跟它说话，它就会在每一次对话中变得更懂你。

七、总结

AI Agent Loops 已经从实验室概念变成了行业共识。几乎所有主流 Agent 产品都在做"循环"，但大多数还停留在"执行循环"的层面——不断地重复，但没有真正的成长。

真正的 AI Loops，应该是"学习循环"——每循环一次，Agent 就进步一点。目前在这个方向上走得最远的就是 Nous Research 的 Hermes Agent，而 MotoAgent 让每个人都能轻松地用上这个能力。

如果你还在用"没有记忆、不会成长的 AI"，是时候升级了。下载 MotoAgent，创建一个 Hermes Agent，和它聊上几天——你会感受到什么叫真正的"越用越聪明"。

程默的博客 » 代理循环