AI Agent Evals 与 Readiness Harness
从 demo 到生产 · 7 类评测维度 · 4 种 Harness 模式 · CI 集成实战
为什么 Evals 是 Agent 工程的最大瓶颈
2026 年 AI Agent 项目最大的卡点不是模型选型,而是「demo 跑得通,生产挂三天」。行业数据显示 68% 的 Agent 项目卡在评测环节 — 没有可重复的 evals,没人敢把 Agent 接入用户真实流量。Evals + Readiness Harness 就是把 Agent 从 demo 变成生产系统的工程基础。
7 类评测维度
4 种 Readiness Harness 模式
Sandbox 模式
完全隔离环境跑 evals,适合 PR check / nightly job,0 影响生产
Shadow 模式
新 Agent 跟旧 Agent 并行接收真实流量但不响应用户,对比输出差异
Canary 模式
新 Agent 接 1-5% 流量,监控 7 维度 metric,自动 rollback 阈值
Gated 模式
把 evals 套件作为 CI 必过 gate,任何回归直接阻止合并
CI 集成实战
把 evals 套件接进 GitHub Actions / GitLab CI:每次 PR 自动跑 200-500 个 test case,对比 main 分支的 baseline。Claude Code / Codex CLI 都已支持以 `--eval-mode` 标志输出结构化 JSON, 便于 grafana / datadog 可视化。
应对 evals 成本爆炸
企业用户常被问到:「跑 evals 套件每月 API 成本爆表怎么办?1000 case × 每天 × 4 个 agent 版本 = 12 万次调用/月。」解决方案两条:(1) 采用品牌 API 订阅服务,统一计费、可预测预算 — 如 QCode.cc 的企业订阅含独立 evals 配额;(2) 引入缓存 + 抽样策略,nightly 跑完整 set, PR check 只跑高优先级子集。
与 Harness Engineering 的关系
Harness Engineering 是宏观系统设计 — 约束、反馈循环、生命周期、上下文。Readiness Harness 是其中「反馈循环」的子集,专注于「Agent 能不能上生产」这个决策点。两者互补:harness 设计的好,evals 才能准确测出问题;evals 完善,harness 才能持续演进。