超越Chatgpt的AI agent综述.pdf

超越Chatgpt的AI agent综述.pdf
这份文档主要介绍了 AI Agents 的发展趋势,以及如何在 ChatGPT 之外构建更强大的 AI Agent。以下是核心内容的总结: **1. AI Agent 的定义与构成:** * AI Agent 是一种能够感知环境、进行推理、规划、反思和行动的智能体。 * 其核心构成包括:感知(多模态输入),规划(内部独白,例如 Chain-of-Thought 推理),反思(元推理),行动(函数/工具调用,具体行动)。 **2. AI Agent 发展阶段:** * 文档提出了 AI Agent 的五个发展阶段,包括: * **Level 1:** "Just Wanna Chat" – 简单地响应用户提示,不使用工具。 * **Level 2:** "Your Work Assistant" – 基于 LLM 的软件系统,协助完成实际任务。 * **Level 3:** "Agent-as-a-Service" – 基于 LLM 的服务系统,自动化预定义工作流程。 * **Level 4:** "Autonomous Agents" – 能够完成各种任务的自主系统。 * **Level 5:** "Human, hold my beer" – 类似于 L5 级自动驾驶的 agent,能够高效、独立地完成日常任务。 **3. 如何改进 LLM 的性能:** * **Self-Improvement(自改进):** * 通过交互式演示,让 LLM 自行改进。 * 强调小模型通过prompt方式进行自我改进比较困难。 * **Tree Search(树搜索):** * 利用树搜索来增强模型的推理能力。 * 结合 look-ahead search,例如棋类游戏中的搜索方法,来增强对话决策能力。 **4. TriPosT(Interactive Trajectory Editing)方法:** * TriPosT 是一种通过交互式轨迹编辑来改进 LLM 的方法。 * 利用 LLM/Python 脚本作为编辑模型。 * 收集小模型和 LLM 之间的交互记录。 * 通过 (attempt, feedback, update) 三元组来重构交互数据。 * 对数据进行过滤和再平衡。 * 使用加权 SFT (Supervised Fine-tuning) 来训练 LLaMA-1/LLaMA-2 模型。 **5. Model self-improvement with LLMs (使用 LLM 进行模型自改进):** * 该方法核心思想是: * 让较弱的 LLM 尝试自我改进。 * 使用更强的 LLM 进行“过程监督”。 * 利用改进后的数据来训练 LM。 * **结果:** TriPosT 能够提高整体性能,并能够提高模型在 Big Bench Hard 上的表现。 **6. Tree Search 在对话决策中的应用 (Enhanced Model Capability via Tree Search):** * 将对话决策视为树搜索问题。 * 使用零训练 MCTS (MCTS with Zero-training) 框架,包括: * 搜索潜在的有希望的行动。 * 模拟行动结果。 * 评估行动质量。 * 更新每个行动质量的估计。 * **GDP-Zero方法:** * GDP-Zero 在说服任务中有所改进,GPT-Zero 能够学习领域知识,避免了“主动捐赠” 并采用了平衡的策略。 * **Open-Loop MCTS:** * Open-Loop MCTS 考虑来自对话状态的随机转换。 * 能够提高模型的对话能力。 **7. Exploratory Learning (探索性学习) :** * 通过在树遍历上进行训练来实现。 * GPT-4o 在 R-MCTS 树上进行探索性学习后,表现出计算量扩展特性,而无需增强搜索算法。 **8. Arklex Agent 框架:** * 展示了 Agent-First Organization Framework。 * Arklex 框架的优势:更智能、更可控。 * 提供了与其它框架的对比,突出其优势。
在线阅读 下载完整报告 | 8.69 MB | 82页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告