AgentNote

满眼生机转化钧，天工人巧日争新

一、 LLM 基础知识 (LLM Basics)
LLM（Large Language Model，大语言模型）基础知识指的是理解这些模型是如何运作的，以及它们的边界在哪里。核心概念包括：

Transformer 架构：目前绝大多数主流 LLM（如 GPT-4、Llama 3）的基础网络结构。它通过“注意力机制（Attention）”来理解文本中词与词之间的上下文关系。

Token (词元)：LLM 处理文本的最小单位。一个 Token 可以是一个字、一个词汇的一部分或一个完整的英文单词。模型的输入长度（Context Window）由 Token 数量决定。

预训练 (Pre-training)：模型在海量互联网数据上进行的第一阶段学习。它的核心任务是“预测下一个词（Next-token prediction）”，由此掌握了语言的统计规律和世界知识。

微调 (Fine-tuning)：预训练后的模型只是一个“词语接龙”机器。通过监督微调（SFT）和基于人类反馈的强化学习（RLHF），模型学会了如何以对话的形式回答问题、遵循指令并对齐人类价值观。

幻觉 (Hallucination)：LLM 最大的缺陷之一，即模型会一本正经地胡说八道。这是因为它们本质上是概率模型，而不是精准的知识库。

二、 Agent 的常见架构 (Common Agent Architectures)
AI Agent（智能体）是指以 LLM 为核心大脑，不仅能“说话”，还能“感知、思考和行动”的系统。一个标准的 Agent 架构通常包含四个核心模块：

配置与角色 (Profile/Role)：定义 Agent 的人设、目标和边界（例如：“你是一个资深的 Python 程序员，负责自动修复代码 bug”）。

记忆模块 (Memory)：

短期记忆：通常指当前的对话上下文（Context），受限于 LLM 的输入窗口大小。

长期记忆：通常借助外部向量数据库（Vector DB），将历史交互或海量文档保存下来，需要时通过检索（RAG）调取。

规划模块 (Planning)：Agent 的思考过程。遇到复杂任务时，Agent 需要将其拆解。常见的规划模式包括 CoT（思维链，Chain of Thought），即让模型一步步写出思考过程；以及 ReAct（Reason + Act），即“思考-行动-观察”的循环。

工具与执行 (Tools/Action)：赋予 LLM 改变外部世界的能力。LLM 本身不能联网或计算，但它可以生成特定的代码或格式（如 JSON）来调用外部 API、执行 Python 脚本、搜索网页或查询数据库。

三、开发范式 (Development Paradigms)
开发范式指的是随着 AI 技术演进，开发者构建 LLM 应用时所采用的系统设计模式和方法论。目前主要经历了以下几种范式的演进：

提示词工程 (Prompt Engineering)：最基础的范式。完全依赖 LLM 自身的内部知识，通过优化输入指令（如 Few-shot 少量样本提示）来获取更好的输出。应用本身是无状态的。

RAG (检索增强生成, Retrieval-Augmented Generation)：针对 LLM 知识更新滞后和幻觉问题的范式。系统在让 LLM 回答问题前，先从私有数据库中检索出相关文档，然后将文档作为背景知识与用户问题一起喂给 LLM。这是目前企业级应用最广泛的范式。

Agentic Workflow (智能体工作流)：不再是单纯的“一问一答”。开发者会设计一个流程（如 Plan-and-Execute 模式），让 Agent 自主拆解任务、循环调用工具、自我纠错（Self-Correction），直到完成最终目标。通常使用 LangChain 或 LlamaIndex 等框架开发。

Multi-Agent (多智能体协作)：应对单一 Agent 能力瓶颈的范式。在一个系统中构建多个不同角色的 Agent（如一个负责写代码，一个负责测试，一个负责代码审查），让它们像人类团队一样相互对话、协作和辩论来完成极度复杂的任务。代表性框架有 AutoGen 和 MetaGPT。