时间:2026-06-30 21:37:41

AI Agent Loops 最新进展:所有 Agent 都在”循环”,但只有少数在”学习”

分享到:

 

一、AI Agent Loops 已经成为行业共识

如果说 2024 年是"AI Agent 元年",那 2025 年到 2026 年就是"AI Agent Loops 普及年"。现在几乎所有的 AI Agent 产品都在谈论"循环"——让代理不仅仅是回答一次问题,而是进入一个持续迭代的执行流程。

这个共识的形成,主要来自几个里程碑事件:

1. Andrew Ng 的 Agentic Design Patterns(2024 年 3 月):系统化提出反思、工具使用、规划、多代理协作四大模式,用数据证明 Agent 循环可以让 GPT-3.5 的编码能力超过 GPT-4

2. Reflexion 论文(Noah Shinn 等,2023):开创了"语言强化学习"方法,智能体通过语言反馈在试错中学习

3. Anthropic 的 Building effective agents(2024 年 12 月):从 Prompt Chaining 到 Evaluator-Optimizer 到自主 Agent,正式将 Agent 循环纳入主流技术路线

4. Auto-GPT 的无限循环模式:最早将 LLM-in-a-loop 推向主流的产品

到了 2026 年,几乎没有哪个正经的 AI Agent 产品敢说自己不支持循环。但问题来了——大家都是怎么"循环"的?效果一样吗?

访问 MotoAgent 了解真正的带学习回路的 Agent 循环。

二、"循环"和"学习"是两回事

在深入各家产品之前,我们需要先厘清一个关键区别:

执行循环 vs 学习循环

对比维度 执行循环 学习循环
工作方式 反复执行相同流程 每次循环后总结经验
跨会话 每次从零开始 记忆和技能持续积累
改进机制 自动创建和优化技能
效果变化 始终不变 越用越好
代表产品 AutoGPT、Claude Code Hermes Agent(Nous Research)

很多所谓支持"Agent Loop"的产品,实际上只是把 LLM 放在一个循环里反复调用——每次执行同样的步骤,无法积累经验,下次遇到同样的问题还是从头再来。这不是真正的"学习",只是"重复"。

而真正意义上的 AI Agent Loops,应该是:每次循环都有信息沉淀下来,下次循环变得更好

三、各主流产品的 Loop 实现情况

现在市面上主流 AI Agent 产品的 Loop 实现情况究竟如何?我们来逐一分析。

Hermes Agent(Nous Research)—— 唯一内置完整学习回路

Hermes Agent 是目前唯一一个真正实现了"学习循环"的主流 Agent。它的循环机制是:

1. 执行阶段:完成任务,调用工具,生成输出

2. 后台回顾:每次对话结束后,自动运行自改进回顾

3. 记忆写入:将有用的信息自动存入 MEMORY.md 或 USER.md

4. 技能创建:从成功完成的任务中创建可复用的技能

5. 技能改进:下次使用技能时,自动修正和优化

6. 策展归档:长时间不用的技能自动归档

这套机制确保了每完成一次任务,Agent 的能力就有一点点提升。在 MotoAgent 中使用的就是 Hermes Agent 后端。

Claude Code(Anthropic)—— 执行循环,无学习能力

Claude Code 支持 Evaluator-Optimizer 模式,可以在执行过程中反复评估和优化输出。但它没有跨会话的记忆和技能积累机制,每次会话都是独立的。属于"执行循环"范畴。

Codex CLI(OpenAI)—— 执行循环,会话级上下文

Codex CLI 有一个执行器架构,支持 MCP 工具调用循环。但它的记忆仅限于会话级别,不支持跨会话的知识积累。同样属于"执行循环"。

LangChain / LangGraph —— 框架层支持,需自行构建

LangGraph 提供了非常灵活的循环编排能力——通过有向图状态机和检查点机制,开发者可以构建各种复杂的循环流程。但它是一个框架,不是开箱即用的产品。你需要自己实现记忆、技能、学习等上层逻辑。

AutoGPT —— 无限循环的先驱

AutoGPT 是最早将 LLM-in-a-loop 推向主流的产品。它的核心模式是"目标分解 -> 执行 -> 观察 -> 再执行"的循环。但它的问题是:每次循环之间没有真正的学习发生,长时间运行可能会出现重复和漂移。

CrewAI —— 多代理协作循环

CrewAI 的循环体现在多代理之间的协作上——不同角色的代理组成团队,通过层级流程循环完成复杂任务。但在单个代理层面,它没有内置的学习机制。

四、各产品 Loop 能力对比

产品 循环类型 跨会话记忆 技能自我改进 后台自动学习 循环可控性
Hermes Agent 学习循环 是(MEMORY.md + FTS5) 是(每次对话后) 高(自然语言管理)
Claude Code 执行循环 否(会话级) 中(CLI 控制)
Codex CLI 执行循环 否(会话级) 中(CLI 控制)
LangGraph 框架,可构建 需自行实现 需自行实现 需自行实现 高(开发者控制)
AutoGPT 执行循环 有限(平台层) 低(易漂移)
CrewAI 协作循环 需外部存储 中(配置驱动)

从对比可以清楚地看到:支持"执行循环"的产品很多,但真正支持"学习循环"的只有 Hermes Agent 一个。

五、为什么学习循环这么难实现

你可能会问:既然学习循环这么好,为什么其他产品不做?

原因有几个:

1. 技术复杂度高

学习循环不是简单的"存个历史记录",而是需要一整套基础设施:

  • 持久化记忆系统(什么该记、什么不该记)
  • 技能生成和评估机制(怎么判断一个经验值得固化)
  • 记忆压缩和合并(记忆空间有限,需要去重和合并)
  • 跨会话检索(如何找到几个月前的相关经验)

2. 成本控制挑战

每次对话后都运行后台回顾,意味着额外的 LLM 调用成本。Hermes Agent 在这方面做了精妙的设计——可以配置使用更便宜的模型来做回顾,同时利用缓存减少开销。

3. 学习质量难以保证

不是所有经验都值得学习。如果 Agent 学到了错误的东西,反而会降低后续的表现。这就需要一套有效的评估和策展机制——也就是 Hermes Agent 的"技能策展"系统,30 天未使用的技能自动标记为陈旧,90 天自动归档。

六、MotoAgent 让 AI Loops 变得人人可用

虽然 AI Agent Loops 是个技术性很强的概念,但在 MotoAgent 中,你不需要理解这些底层原理就能享受它带来的好处。

在 MotoAgent 中创建一个 Agent,选择 Hermes 后端:

  • 做过的事情会被记住——不需要重复交代
  • 做过的任务会变成技能——下次更快更好
  • 对话越多进步越大——越用越聪明

MotoAgent 把 Hermes Agent 的学习循环能力和微信、飞书等日常通讯工具结合在了一起。你不需要懂技术,只需要像聊天一样跟它说话,它就会在每一次对话中变得更懂你。

七、总结

AI Agent Loops 已经从实验室概念变成了行业共识。几乎所有主流 Agent 产品都在做"循环",但大多数还停留在"执行循环"的层面——不断地重复,但没有真正的成长。

真正的 AI Loops,应该是"学习循环"——每循环一次,Agent 就进步一点。目前在这个方向上走得最远的就是 Nous Research 的 Hermes Agent,而 MotoAgent 让每个人都能轻松地用上这个能力。

如果你还在用"没有记忆、不会成长的 AI",是时候升级了。下载 MotoAgent,创建一个 Hermes Agent,和它聊上几天——你会感受到什么叫真正的"越用越聪明"。

作者:程默的博客  QQ:8292669
原文网址:http://blog.chacuo.net/1535.html
订阅保持关注:http://blog.chacuo.net/feed
本文版权归作者所有,欢迎转载,请务必添加原文链接。


 

留下评论

要发表评论,您必须先登录