AI Agent = LLM + Harness

Agent = LLM + Harness 是当下AI工程领域的一个核心理念。这里的 Harness 并非指代某个单一软件，而是包裹在大语言模型（LLM）外围的一整套基础设施和工程方法，负责将模型原始的生成能力，转化、约束并编排为稳定可靠的智能体。

简单来说，如果说 LLM 是强大的“大脑”，负责思考与规划；那么 Harness 就是“神经系统”和“骨架”，确保大脑的指令能够被精准、安全地执行，并协调各个器官协同工作。

🤔 为什么要用 "Harness"？

Harness 这个词本身意为“马具”，非常形象地描述了它的作用。一个未经约束的 LLM 虽然强大，却可能不受控制，而 Harness 正是为了引导和规范其力量而设计的“缰绳”。仅优化 Harness、不改动模型权重，就能在特定任务中实现数倍甚至10倍的编码成绩提升，远超常规模型迭代带来的 2%-4% 的边际收益。

一、一句话说清楚

AI Agent = LLM（大脑）+ Harness（神经系统与骨架）

LLM（Large Language Model）：负责思考、推理、生成——它是智能的核心引擎
Harness：负责包装、约束、编排、执行——它是把智能转化为可靠行为的工程基础

没有 Harness 的 LLM，就像一个有超级大脑但没有手脚的人——什么都能想，但什么都做不了。

二、为什么需要 Harness？

2.1 LLM 天生的局限

特性	问题
无状态	每次对话都是独立的，记不住上下文
不精确	输出是概率性的，同样的输入可能有不同输出
不实时	训练数据有截止时间，不知道当下发生了什么
无行动能力	只能输出文字，没法调用 API、读写文件、执行命令
不可控	可能产生幻觉、偏离主题、输出不安全内容
慢且贵	大量重复调用、长上下文消耗巨大

2.2 Harness 要解决的问题

Harness = 把 LLM 从"会聊天的鹦鹉"变成"能办事的助手"所需要的一切工程手段。

LLM 原始输出 ──→ Harness 加工 ──→ 可靠可用的智能体行为
                  ↓
           安全性、准确性、可重复性、可观测性

三、Harness 的核心组件

🧱 组件事物概览

┌─────────────────────────────────────────────────────┐
│                     AI Agent                         │
│  ┌──────────────────────────────────────────────┐   │
│  │               LLM（大脑）                     │   │
│  └──────────────────────────────────────────────┘   │
│                          ↓                          │
│  ┌──────────────────────────────────────────────┐   │
│  │              Harness（骨架）                  │   │
│  │  ┌──────┐  ┌──────┐  ┌──────┐  ┌────────┐    │   │
│  │  │提示词 │  │工具集 │  │记忆   │  │安全围栏 │    │   │
│  │  │管理   │  │成    │  │管理   │  │        │    │   │
│  │  └──────┘  └──────┘  └──────┘  └────────┘    │   │
│  │  ┌──────┐  ┌──────┐  ┌──────┐  ┌────────┐    │   │
│  │  │编排   │  │可观测 │  │错误   │  │沙箱    │    │   │
│  │  │引擎   │  │性    │  │处理   │  │        │    │   │
│  │  └──────┘  └──────┘  └──────┘  └────────┘    │   │
│  └──────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘

3.1 提示词管理（Prompt Management）

LLM 的 API 只接受文本，你怎么写提示词，决定了它怎么回应。

模板化：将固定的系统指令、角色设定、任务描述做成可复用的模板
版本控制：提示词改版有记录，A/B 测试对比效果
动态组装：根据上下文动态拼接不同的指令片段（比如注入当前时间、用户信息、工具列表）

# 伪代码：提示词动态组装
def build_prompt(user_query, context, tools):
    return f"""
    你是AI助手。当前时间：{datetime.now()}
    可用工具：{tools}
    
    历史对话：{context.history}
    
    用户问题：{user_query}
    """

没有提示词管理的 Agent → 每次调 prompt 靠手写，改一次全盘改 有提示词管理的 Agent → 模板化、可测试、可迭代

3.2 工具集成（Tool Integration / Function Calling）

LLM 只会说话，Harness 教它怎么动手。

Tool Integration 是 Harness 最核心的能力之一，它让 LLM 能：

执行 Shell 命令
调用外部 API
读写文件
访问数据库
查询搜索引擎
调用其他 AI 服务

工作流程：

用户请求
    ↓
LLM 分析并决定"我需要调用工具 X"
    ↓
Harness 收到 LLM 的输出 → 解析出工具调用请求
    ↓
Harness 执行实际的工具调用（API、命令、文件操作等）
    ↓
工具结果返回给 Harness
    ↓
Harness 将结果注入回 LLM 的上下文
    ↓
LLM 基于结果生成最终回答

关键在于：LLM 看到的"工具调用"是一个格式化的文本请求，真正的执行是由 Harness 完成的。这使得 Harness 可以在执行前后做安全检查、权限控制、结果过滤。

3.3 记忆管理（Memory Management）

LLM 没有长期记忆，Harness 帮它记住。

记忆类型	说明	举例
工作记忆	当前对话的上下文	刚才说了什么、做到哪一步了
长期记忆	跨会话的知识积累	用户的偏好、历史决策记录
知识库	外部文档、数据库	RAG 检索增强生成

实现方式：

上下文窗口 — 把记忆塞进 LLM 的输入（对齐上下文限制）
向量数据库 — 将记忆转为向量，通过语义搜索召回
结构化存储 — 用数据库存储关键事实，按需查询

# 伪代码：记忆管理示例
class MemoryManager:
    def get_context(self, session_id):
        # 1. 获取短期记忆（当前对话）
        short_term = self.short_memory.get(session_id)
        # 2. 检索长期记忆（向量搜索）
        long_term = self.vector_store.search(short_term[-1].content)
        # 3. 从知识库补充
        knowledge = self.rag.retrieve(short_term[-1].content)
        # 4. 组装成完整上下文
        return Context(short_term, long_term, knowledge)

3.4 安全围栏（Guardrails）

Guardrails = 给 LLM 装上护栏，防止它跑到不该去的地方。

安全围栏通常分输入侧和输出侧两层：

用户输入 → [输入护栏] → LLM → [输出护栏] → 最终输出

输入护栏检查什么：

检查项	说明
越狱攻击	用户是否试图绕过系统指令
敏感话题	涉及色情、暴力、非法内容
隐私泄露	是否试图套取用户敏感信息
命令注入	是否试图通过 prompt 注入恶意代码

输出护栏检查什么：

检查项	说明
内容安全	输出是否包含不安全内容
格式验证	输出是否符合约定的格式（JSON、代码等）
事实核查	输出是否与已知事实冲突
策略合规	输出是否违反业务规则

# 伪代码：Guardrails 示例
class Guardrails:
    def process(self, llm_output):
        # 检查格式
        if not self.is_valid_json(llm_output):
            return self.retry_with_correction()
        # 检查内容安全
        if self.contains_forbidden_content(llm_output):
            return self.redact_and_log()
        # 策略检查
        if self.violates_policy(llm_output):
            return PolicyViolation("不符合合规要求")
        return llm_output

3.5 编排引擎（Orchestration Engine）

编排 = 把多个步骤串起来，让 LLM 不是一次调用，而是多步推理和行动。

简单编排（单步）：

用户说 → LLM思考 → LLM回答

复杂编排（多步）：

用户说 → LLM思考1 → 工具调用 → LLM思考2 → 工具调用 → LLM总结 → 回答

常见编排模式：

模式	说明	场景
Chain	线性步骤链	先搜索 → 再总结 → 最后输出
Router	根据条件路由到不同路径	简单问题直接答，复杂问题用工具
Loop	循环直到满足条件	持续改进回答直到质量达标
Parallel	并行多个子任务	同时搜索多个来源后汇总
Tree-of-Thought	分叉探索多个思路	复杂逻辑推理，评估多条路径
ReAct	思考→行动→观察→再思考	通用的 Agent 循环框架

ReAct 模式（目前最主流的 Agent 模式）：

循环 {
  1. 思考（Thought）：分析当前状态，决定下一步
  2. 行动（Action）：调用工具或生成回答
  3. 观察（Observation）：获取工具执行的结果
  4. 如果目标达成 → 输出最终回答并退出循环
  5. 否则 → 回到步骤 1
}

3.6 可观测性（Observability）

LLM 是黑箱，Harness 负责把黑箱变成玻璃箱。

日志记录：每一次 LLM 调用、每一个工具执行结果
追踪（Tracing）：完整记录一个请求的完整链路，耗时多少、哪个步骤慢
成本监控：每次调用的 Token 消耗、API 费用
质量评估：回答是否准确、用户是否满意（反馈收集）
调试回放：可以回放任意一次 Agent 的完整思考和执行过程

# 可观测性追踪示例（一次 Agent 调用的追踪记录）
session_id: "sess_abc123"
steps:
  - step: 1
    type: llm_call
    model: gpt-4
    input_tokens: 1200
    output_tokens: 350
    duration_ms: 2800
    
  - step: 2
    type: tool_call
    tool: web_search
    query: "2024年AI趋势"
    duration_ms: 1200
    result: { success: true, results_count: 5 }
    
  - step: 3
    type: llm_call
    model: gpt-4
    input_tokens: 2800   # 增加了搜索结果的上下文
    output_tokens: 500
    duration_ms: 4200
    
total_cost: $0.034
total_duration_ms: 8200

3.7 错误处理与回退（Error Handling & Fallback）

LLM 会犯错，Harness 负责兜底。

错误类型	处理策略
API 超时	自动重试（指数退避）
输出格式错误	重新解析或要求 LLM 修正
工具调用失败	更换备用工具或降级方案
模型不可用	自动切换到备用模型（failover）
上下文超长	智能截断或压缩历史记录
连续错误	主动告知用户，终止当前任务

# 伪代码：错误处理示例
def call_with_fallback(prompt, max_retries=3):
    models = ["gpt-4", "gpt-3.5-turbo", "claude-3"]  # 备用模型列表
    
    for attempt in range(max_retries):
        for model in models:
            try:
                return model.call(prompt)
            except RateLimitError:
                wait_and_retry(2 ** attempt)  # 指数退避
            except ModelUnavailable:
                continue  # 换下一个模型
            except OutputFormatError:
                prompt += "\n请确保输出为合法的JSON格式。"
                continue
    
    return FallbackResponse("服务暂时不可用，请稍后再试。")

3.8 执行沙箱（Sandbox）

LLM 生成的代码或命令不能直接信任，需要在隔离环境中执行。

文件系统隔离 — 不能读写非授权文件
网络限制 — 不能随意访问外部服务
权限控制 — 以最小权限运行
资源限制 — 防止无限循环耗尽 CPU/内存
超时机制 — 超过时间自动终止
回滚能力 — 执行出问题可恢复到之前状态

LLM 生成了删除命令："rm -rf /"
             ↓
Harness 拦截 → 沙箱检测 → 拒绝执行 → 记录日志 → 报警

四、一个完整的 Agent 请求：看 Harness 如何协同工作

以用户说"帮我查一下今天的 AI 新闻并整理成简报"为例：

用户输入 → "帮我查一下今天的 AI 新闻并整理成简报"

                 ↓
[安全护栏] 检查是否有注入攻击、违规内容 → 通过
                 ↓
[记忆管理] 查询该用户是否有偏好设置（简报格式、语言等）
                 ↓
[提示词管理] 动态组装系统提示词：
  - 角色设定："你是一个简报助手"
  - 可用工具：["web_search", "web_fetch"]
  - 用户偏好：[中文、要点式]
                 ↓
[编排引擎] 启动 ReAct 循环：
  ┌─ Thought: 需要先搜索今天的 AI 新闻
  ├─ Action: web_search(query="2025年6月8日 AI 新闻")
  ├─ Observation: 返回了 10 条结果
  │
  ├─ Thought: 需要获取详细内容
  ├─ Action: web_fetch(url=结果1), web_fetch(url=结果2), web_fetch(url=结果3)
  ├─ Observation: 获取了 3 篇文章的全文
  │
  ├─ Thought: 信息足够，可以整理简报
  ├─ Final Answer: 要点式简报
  └─ 循环结束
                 ↓
[输出护栏] 检查简报是否包含不安全内容 → 通过
                 ↓
[可观测性] 记录完整链路：耗时、token消耗、成本
                 ↓
[记忆管理] 将此次对话存入短期记忆
                 ↓
用户收到 → 📋 AI 今日新闻简报（3 要点）

五、Harness 的设计原则

5.1 防御性设计

假设 LLM 会犯错，Harness 来兜底。

永远验证 LLM 的输出格式
总是设置超时和重试
总有备用方案（fallback chain）

5.2 渐进式复杂度

从简单开始，按需增加复杂度。

简单指令 → 直接一问一答
                 ↓
需要工具 → 加 Function Calling
                 ↓
需要多步 → 加编排引擎
                 ↓
需要记忆 → 加记忆管理
                 ↓
需要多人协作 → 加多 Agent 编排

5.3 可观测性优先

看不见的 Agent 是危险的 Agent。

每个步骤都可追踪
每次调用都可回放
每次失败都可诊断

5.4 安全硬边界

LLM 的灵活性和系统的安全性是天然矛盾的，Harness 是两者之间的缓冲带。

调用 LLM 前检查输入
LLM 输出后检查内容
工具执行时控制权限
所有操作记录日志

六、从 Harness 到更好的 Harness：持续演进

一个好的 Harness 不是一蹴而就的，它应该能随着你的需求不断进化：

阶段一：裸 LLM
  直接调用 API，手动拼接 prompt
  ❌ 不可靠、不可控、不可观测

阶段二：基础 Harness
  + 提示词模板
  + 简单的工具调用
  + 基础错误处理
  ✅ 能跑了，但很脆弱

阶段三：成熟 Harness
  + 记忆管理
  + 编排引擎（ReAct）
  + 安全围栏
  + 可观测性
  ✅ 稳定可靠，适合生产

阶段四：进化型 Harness
  + 自动评估与优化
  + 多 Agent 协作
  + 动态工具发现
  + 自我改进
  ✅ 能自我演进

七、总结

LLM（大脑）:  思考、推理、生成
Harness（骨架）:
  ├── 提示词管理  → 把思考方向框定好
  ├── 工具集成    → 让大脑能动手
  ├── 记忆管理    → 帮大脑记住事
  ├── 安全围栏    → 防止大脑乱来
  ├── 编排引擎    → 让多步工作串起来
  ├── 可观测性    → 看清楚大脑在想什么
  ├── 错误处理    → 大脑犯错时兜底
  └── 沙箱       → 确保大脑捅的娄子不会扩散

Agent = LLM + Harness 这句话的本质是：

让模型做它擅长的事（语言理解与生成），让工程系统做它擅长的事（精确执行、安全控制、状态管理）。

把两件事分开做，每件事都能做得更好。

AI Agent = LLM + Harness

一、一句话说清楚

二、为什么需要 Harness？

2.1 LLM 天生的局限

2.2 Harness 要解决的问题

三、Harness 的核心组件

🧱 组件事物概览

3.1 提示词管理（Prompt Management）

3.2 工具集成（Tool Integration / Function Calling）

3.3 记忆管理（Memory Management）

3.4 安全围栏（Guardrails）

3.5 编排引擎（Orchestration Engine）

3.6 可观测性（Observability）

3.7 错误处理与回退（Error Handling & Fallback）

3.8 执行沙箱（Sandbox）

四、一个完整的 Agent 请求：看 Harness 如何协同工作

五、Harness 的设计原则

5.1 防御性设计

5.2 渐进式复杂度

5.3 可观测性优先

5.4 安全硬边界

六、从 Harness 到更好的 Harness：持续演进

七、总结

评论区

AI Agent = LLM + Harness