type
status
date
slug
summary
tags
category
icon
password
notion image

Agent包含哪几部分

LLM驱动的自主代理(Agent)主要包含以下几个部分:

规划(Planning)

  1. 任务分解(Task Decomposition)
      • 思维链(Chain of Thought):通过“一步一步思考”的提示技术,将复杂任务分解为较小、更简单的步骤,使模型能够利用更多的测试时计算资源来处理复杂任务。
      • 思维树(Tree of Thoughts):扩展了思维链,在每个步骤中探索多种推理可能性,通过将问题分解为多个思想步骤,并在每个步骤中生成多个思想,形成树状结构,搜索过程可以使用广度优先搜索(BFS)或深度优先搜索(DFS),并通过分类器(通过提示)或多数投票评估每个状态。
      • LLM+P:依赖外部经典规划器进行长期规划,利用规划域定义语言(PDDL)作为中间接口,将问题转换为“Problem PDDL”,请求经典规划器生成计划,再将其转换回自然语言。
  1. 自我反思(Self - Reflection)
      • ReAct:通过扩展动作空间,将推理和行动整合在LLM中,使LLM能够与环境交互并生成推理痕迹,在知识密集型任务和决策任务中表现出色。
      • Reflexion:为代理提供动态记忆和自我反思能力,通过强化学习(RL)设置,根据奖励模型和启发式函数判断轨迹是否低效或包含幻觉,从而决定是否重置环境重新尝试,通过向LLM展示示例来创建自我反思,并将反思添加到工作记忆中作为查询LLM的上下文。
      • Chain of Hindsight(CoH):通过向模型呈现一系列带有反馈注释的过去输出,让模型基于反馈序列进行监督微调,以改进自身输出,避免过拟合和捷径复制。
      • Algorithm Distillation(AD):将强化学习任务中的学习历史串联起来输入模型,使模型学习RL过程而非特定任务策略,通过行为克隆从学习历史中提炼算法,实验表明其在上下文强化学习中表现出色,学习速度快且性能接近RL²。

记忆(Memory)

  1. 记忆类型(Types of Memory)
      • 感觉记忆(Sensory Memory):人类大脑记忆的最早阶段,能在原始刺激结束后短暂保留感觉信息(如视觉、听觉等)的印象,持续时间通常仅几秒,包括标志性记忆(视觉)、回声记忆(听觉)和触觉记忆(触摸)等子类别,可类比为学习原始输入(如文本、图像等)的嵌入表示。
      • 短期记忆(Short - Term Memory, STM)或工作记忆(Working Memory):存储当前正在处理复杂认知任务(如学习和推理)所需的信息,容量有限(约7个项目),持续时间为20 - 30秒,类似于LLM中的上下文学习,受Transformer有限上下文窗口长度的限制。
      • 长期记忆(Long - Term Memory, LTM):可长时间存储信息(从几天到几十年),存储容量几乎无限,包括显式/陈述性记忆(可有意识回忆的事实和事件,如情景记忆和语义记忆)和隐式/程序性记忆(无意识的技能和例行程序,如骑自行车或打字),可对应为代理在查询时可访问的外部向量存储,通过快速检索获取信息。
  1. 最大内积搜索(Maximum Inner Product Search, MIPS):外部记忆可缓解有限注意力跨度的限制,通常将信息的嵌入表示保存到支持快速MIPS的向量存储数据库中,为优化检索速度,常使用近似最近邻(ANN)算法(如LSH、ANNOY、HNSW、FAISS、ScaNN等)返回大约前k个最近邻,以牺牲少量精度换取速度大幅提升。

工具使用(Tool Use)

  1. MRKL系统:是一种神经符号架构,包含“专家”模块集合,通用LLM作为路由器将查询路由到最合适的专家模块,这些模块可以是神经模型(如深度学习模型)或符号模型(如数学计算器、货币转换器、天气API等),实验表明外部符号工具可靠时,LLM知道何时及如何使用工具至关重要。
  1. TALM和Toolformer:通过微调语言模型来学习使用外部工具API,根据API调用注释能否提高模型输出质量来扩展数据集。
  1. ChatGPT Plugins和OpenAI API function calling:是LLM增强工具使用能力在实践中的应用,工具API集合可由其他开发者提供(如插件)或自定义(如函数调用)。
  1. HuggingGPT:使用ChatGPT作为任务规划器,根据模型描述从HuggingFace平台选择模型并根据执行结果总结响应,但在实际使用中面临效率、上下文窗口长度和稳定性等挑战。
  1. API - Bank:是评估工具增强型LLM性能的基准,包含多种常用API工具、完整工作流程和带注释的对话,在其工作流程中,LLM需要在多个步骤做出决策(如是否调用API、确定正确的API、根据API结果响应等),并在三个级别评估代理的工具使用能力。
你不知道的JavaScript(中卷)FLIP原理与实现文章来源说