清华大学-大模型工具学习(中英文)-2024-96页.pdf

清华大学-大模型工具学习(中英文)-2024-96页.pdf
这份文档是关于工具学习的介绍,主要面向大型语言模型(LLM)的研究与应用。文档首先介绍了工具与智能的关系,指出人类历史上一直使用工具,并探讨了人工智能在工具使用方面的潜力。 核心内容包括: 1. **背景与动机:** 随着基础模型的发展,工具学习变得越来越重要。LLM 能够通过学习使用工具来解决更复杂的任务。 2. **工具学习的分类:** 文档介绍了两种主要的工具学习方法: * **工具增强学习:** 增强基础模型,利用工具的执行结果来扩充模型,提高输出质量。 * **工具导向学习:** 让模型管理工具,代替人类进行顺序决策,利用模型的世界知识和推理能力进行复杂推理和规划。 3. **框架:** 描述了一个工具学习的框架,包含以下组件: * **控制器(Controller):** 提供可行的计划来满足用户请求。 * **感知器(Perceiver):** 汇总反馈给控制器。 * **工具集(Tool Set):** 包含不同功能的工具集合。 * **环境(Environment):** 提供工具运行的平台。 4. **意图理解:** 阐述了理解指令的重要性,以及从指令空间到模型认知空间的映射。还讨论了指令调整、监督微调和泛化能力等概念。挑战包括理解模糊指令和处理理论上无限的指令空间。 5. **工具理解:** 介绍了通过提示激发工具理解的方法,包括: * **零样本提示(Zero-shot prompting):** 描述 API 功能、输入/输出格式、参数等。 * **少样本提示(Few-shot prompting):** 提供具体的工具使用演示。 6. **规划与推理:** 深入探讨了规划与推理。 * **内省推理:** 在不与环境交互的情况下生成静态计划。 * **外向推理:** 生成考虑环境变化和反馈的动态计划。 强调了多步骤多工具方案、不同工具的相互作用、从顺序执行到并行执行,以及从单代理问题解决到多代理协作的必要性。 7. **训练策略:** 介绍了两种主要的训练方法: * **从演示中学习:** 通常涉及人工标注。 * **从反馈中学习:** 通常涉及强化学习。 8. **WebGPT 和 WebCPM:** 简要介绍了 WebGPT 以及 WebCPM(一个开源交互式网络搜索界面),后者涉及交互式网络搜索的公共QA数据集,并用于中文长文本问题回答。 9. **Toolformer:** 介绍了自监督工具学习,包括预定义的工具 API、鼓励模型调用和执行工具 API,以及设计自监督损失。 10. **工具创建:** 强调了从工具用户到工具创建者的转变。 * 模型制作工具强调模块化和新的输入/输出格式。 * 介绍了创建工具的四个程序:创建、决策、执行和整改。 * 展示了实验结果,表明对 PoT(Program of Thoughts)和 pure CoT(Chain of Thought)的重大改进。 11. **应用:** 提到了 ChatGPT 插件和开源解决方案。 * **ChatGPT 插件:** 概述了 OpenAI 官方工具库,以及通过 API 调用应用程序的能力。 * **开源解决方案:** 介绍了 BMTools 和 ToolBench 等开源平台,它们提供了可扩展 LLM 使用工具的框架,并促进社区共享工具。 12. **总结:** 强调了工具学习的重要性,指出传统语言任务已得到良好解决,而面临着更具挑战性的任务。基础模型在复杂场景中的潜力依赖于LLM的有效性,理论和实际问题仍然存在,需要探索在复杂场景中利用工具学习。
在线阅读 下载完整报告 | 7 MB | 97页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告