Iridescent-zhang

醉后不知天在水,满船清梦压星河

AgentNote

满眼生机转化钧,天工人巧日争新

一、 LLM 基础知识 (LLM Basics)
LLM(Large Language Model,大语言模型)基础知识指的是理解这些模型是如何运作的,以及它们的边界在哪里。核心概念包括:

Transformer 架构:目前绝大多数主流 LLM(如 GPT-4、Llama 3)的基础网络结构。它通过“注意力机制(Attention)”来理解文本中词与词之间的上下文关系。

Token (词元):LLM 处理文本的最小单位。一个 Token 可以是一个字、一个词汇的一部分或一个完整的英文单词。模型的输入长度(Context Window)由 Token 数量决定。

预训练 (Pre-training):模型在海量互联网数据上进行的第一阶段学习。它的核心任务是“预测下一个词(Next-token prediction)”,由此掌握了语言的统计规律和世界知识。

微调 (Fine-tuning):预训练后的模型只是一个“词语接龙”机器。通过监督微调(SFT)和基于人类反馈的强化学习(RLHF),模型学会了如何以对话的形式回答问题、遵循指令并对齐人类价值观。

幻觉 (Hallucination):LLM 最大的缺陷之一,即模型会一本正经地胡说八道。这是因为它们本质上是概率模型,而不是精准的知识库。

二、 Agent 的常见架构 (Common Agent Architectures)
AI Agent(智能体)是指以 LLM 为核心大脑,不仅能“说话”,还能“感知、思考和行动”的系统。一个标准的 Agent 架构通常包含四个核心模块:

配置与角色 (Profile/Role):定义 Agent 的人设、目标和边界(例如:“你是一个资深的 Python 程序员,负责自动修复代码 bug”)。

记忆模块 (Memory):

短期记忆:通常指当前的对话上下文(Context),受限于 LLM 的输入窗口大小。

长期记忆:通常借助外部向量数据库(Vector DB),将历史交互或海量文档保存下来,需要时通过检索(RAG)调取。

规划模块 (Planning):Agent 的思考过程。遇到复杂任务时,Agent 需要将其拆解。常见的规划模式包括 CoT(思维链,Chain of Thought),即让模型一步步写出思考过程;以及 ReAct(Reason + Act),即“思考-行动-观察”的循环。

工具与执行 (Tools/Action):赋予 LLM 改变外部世界的能力。LLM 本身不能联网或计算,但它可以生成特定的代码或格式(如 JSON)来调用外部 API、执行 Python 脚本、搜索网页或查询数据库。

三、 开发范式 (Development Paradigms)
开发范式指的是随着 AI 技术演进,开发者构建 LLM 应用时所采用的系统设计模式和方法论。目前主要经历了以下几种范式的演进:

提示词工程 (Prompt Engineering):最基础的范式。完全依赖 LLM 自身的内部知识,通过优化输入指令(如 Few-shot 少量样本提示)来获取更好的输出。应用本身是无状态的。

RAG (检索增强生成, Retrieval-Augmented Generation):针对 LLM 知识更新滞后和幻觉问题的范式。系统在让 LLM 回答问题前,先从私有数据库中检索出相关文档,然后将文档作为背景知识与用户问题一起喂给 LLM。这是目前企业级应用最广泛的范式。

Agentic Workflow (智能体工作流):不再是单纯的“一问一答”。开发者会设计一个流程(如 Plan-and-Execute 模式),让 Agent 自主拆解任务、循环调用工具、自我纠错(Self-Correction),直到完成最终目标。通常使用 LangChain 或 LlamaIndex 等框架开发。

Multi-Agent (多智能体协作):应对单一 Agent 能力瓶颈的范式。在一个系统中构建多个不同角色的 Agent(如一个负责写代码,一个负责测试,一个负责代码审查),让它们像人类团队一样相互对话、协作和辩论来完成极度复杂的任务。代表性框架有 AutoGen 和 MetaGPT。