# AI Agent 自反思訓練最新研究：ACT、ERL 與 EduClaw 如何突破 LLM 代理瓶頸

本文深入分析三篇 2026 年發布的重要 AI Agent 研究論文：Agentic Critical Training (ACT)、Experiential Reflective Learning (ERL) 以及 Scaling Laws for Educational AI Agents。這些研究共同揭示了一個重要趨勢：LLM 代理的訓練範式正在從模仿學習向真正的自反思和經驗學習轉變。

arXiv:2603.08706, arXiv:2603.24639, arXiv:2603.11709

## 為什麼 LLM 代理需要新的訓練範式

傳統的 LLM 代理訓練主要依賴模仿學習（Imitation Learning）。這種方法雖然能夠讓代理快速掌握特定任務的執行模式，但存在三個根本性的缺陷：

**第一，代理只學到了「做什麼」，卻不理解「為什麼」要這樣做。** 當代理遇到訓練數據中未曾出現的狀態時，它往往無法正確判斷應該采取什麼行動。

**第二，代理缺乏對自身決策質量的認知。** 傳統方法訓練出的代理無法區分優質決策和次優決策，因此在面對錯誤時無法自我修正。

**第三，經驗無法有效積累和遷移。** 代理在完成一個任務後，所獲得的經驗仍然封閉在模型參數中，無法被後續任務有效利用。

正是這些缺陷推動了 ACT、ERL 等新一代訓練方法的誕生。

## Agentic Critical Training (ACT)

ACT 由馬里蘭大學的研究團隊提出，其核心創新是將訓練目標從「模仿專家行為」轉變為「識別更優行為」。在 ACT 框架中，代理不再只是機械地复刻專家動作，而是需要學會在多個候選動作中判斷哪個更好。

### ACT 的核心機制

ACT 的訓練過程分為三個階段：

**數據構建階段**：首先從專家演示中提取狀態-動作對，然後由初始策略生成 K 個替代動作。通過過濾重複項後，構建出偏好對：{狀態, 專家動作, 替代動作}。

**批判性訓練階段**：將兩個候選動作以隨機順序呈現給代理，代理需要生成推理並選擇更好的動作。只有當代理的判斷正確時才給予獎勵。這種設計強迫代理發展出自主的批判性推理能力。

**動作訓練階段**：在批判性推理能力的基礎上，進一步使用 GRPO 等強化學習方法訓練直接動作生成。

### 關鍵實驗結果

研究團隊在三個標準代理基准上測試了 ACT 的效果：

在 ALFWorld 基准上，ACT 相比純 RL 方法提升了 4.62 個百分點。在 WebShop 任务中，ACT 幫助代理達到了 33.80% 的成功率，遠超基線方法。最令人驚訝的是跨領域遷移實驗：只在 ALFWorld 等代理任務上訓練的 ACT 模型，在 MATH-500 數學基准和 GPQA-Diamond 科學推理基准上都取得了顯著提升，而且這些提升是在沒有使用任何數學或科學領域的訓練數據情況下實現的。

這個結果揭示了一個重要洞察：批判性推理能力具有很強的跨領域遷移性。學會「識別更好的行動」這一能力，不僅限於特定的任務類型，還能夠提升代理在各種需要推理的任務中的表現。

## Experiential Reflective Learning (ERL)

ERL 由另一個研究團隊提出，專注於解決代理無法從過去經驗中學習的問題。與 ACT 不同，ERL 的核心思想是讓代理能夠像人類一樣，從單次任務執行中提取可遷移的啟發式規則，並在後續任務中檢索和應用這些規則。

### ERL 的工作原理

ERL 的框架包含三個核心組件：

**經驗反思模塊**：在每個任務完成後，ERL 會對任務軌跡和結果進行深入反思，生成「經驗啟發式」（heuristics）。這些啟發式以自然語言的形式存儲，描述了從本次任務中學到的可操作經驗教訓。例如：「當在複雜的 JSON 結構中找不到目標字段時，應該先檢查父對象的結構，而不是盲目遍歷整個樹。」

**選擇性檢索機制**：與簡單的最近鄰檢索不同，ERL 採用了選擇性檢索策略。只有當當前任務與存儲的啟發式高度相關時，才會將其注入到代理的上下文中。這種設計避免了不相關經驗對當前任務的干擾。

**上下文注入**：被檢索到的啟發式會以結構化的方式注入到代理的上下文中，引導代理的執行策略。

### ERL 的關鍵發現

在 Gaia2 基准上的實驗結果顯示，ERL 相比 ReAct 基線提升了 7.8% 的成功率。研究團隊還發現，選擇性檢索是至關重要的——如果不加選擇地注入所有相關啟發式，反而會因為信息過載而導致性能下降。

此外，研究還確認了啟發式相比少量樣本軌跡提示（few-shot trajectory prompting）能夠提供更加可遷移的抽象層次。這是因為啟發式捕獲的是任務執行的通用原則，而不僅僅是特定的輸入輸出對。

## Scaling Laws for Educational AI Agents

第三篇論文則從宏觀角度探討了教育領域 AI 代理的擴展規律。研究者提出了「代理擴展定律」（Agent Scaling Law）的概念，認為教育代理的能力不僅取決於底層模型的規模，還與五個結構化維度密切相關：角色定義清晰度、技能深度、工具完整性、運行時能力和教育者專業知識注入。

### AgentProfile 規范

論文提出了一個名為 AgentProfile 的結構化 JSON 規范，作為定義和擴展教育代理能力的機制。通過這個規范，開發者可以系統化地定義代理的教育能力維度，實現可預測的能力增長。

### EduClaw 平台

研究團隊基於這一理論框架構建了 EduClaw 平台，該平台目前托管了超過 330 個教育代理配置文件，包含 1100 多個跨 K-12 學科的技能模塊。平台的實證觀察表明，教育代理的性能可以通過配置文件結構的豐富度來預測，這為未來的 AI 教育系統設計提供了重要的理論指導。

## 三項研究的共同啟示

综合这三项研究，我们可以提炼出几个关于 LLM 代理训练的重要启示。

**第一，真正的自反思能力是可以通过训练实现的。** ACT 证明了代理可以学会识别更好的行动，而不仅仅是模仿固定的行为模式。

**第二，经验的有效积累和迁移是提升代理能力的关键。** ERL 通过启发式存储和选择性检索实现了这一点。

**第三，结构化的能力定义比单纯扩大模型规模更重要。** EduClaw 的研究显示，通过系统化的能力维度设计，可以在不显著增加模型参数的情况下大幅提升代理性能。

## 展望未来

2026 年的这三项研究为我们描绘了 AI 代理发展的新方向。从「学习做什么」到「学习如何判断」，从「从头开始」到「积累经验」，从「越大越好」到「结构化能力系统」，LLM 代理的训练范式正在经历根本性的转变。

这些研究成果不仅对 AI 研究者具有重要意义，对于正在构建 AI 应用的一线开发者同样具有实际的指导价值。如何在自己的应用中借鉴这些训练理念，如何选择适合特定场景的代理架构，将是每一位 AI 开发者需要深入思考的问题。