AI Agent Evals と Readiness Harness
デモから本番へ · 7 つの評価次元 · 4 つの Harness パターン · CI 統合実戦
なぜ Evals が Agent エンジニアリング最大のボトルネックか
2026 年 AI Agent プロジェクトの最大の障害はモデル選定ではなく「デモでは動くが本番で 3 日で壊れる」問題です。業界データでは 68% の Agent プロジェクトが評価段階で停止 — 再現可能な evals がなければ、実ユーザートラフィックを通す勇気は誰にも出ません。Evals と Readiness Harness は、Agent デモを本番システムに変えるエンジニアリング基盤です。
7 つの評価次元
4 つの Readiness Harness パターン
Sandbox モード
完全隔離環境で evals 実行、PR チェック / nightly に最適、本番影響ゼロ
Shadow モード
新 Agent が旧 Agent と並行して実トラフィックを受けるがユーザーには応答せず、出力差分を比較
Canary モード
新 Agent が 1-5% のトラフィックを取得、7 次元を監視、閾値超過で自動ロールバック
Gated モード
Evals スイートを CI の必須 gate に、いかなる回帰もマージをブロック
CI 統合実戦
Evals スイートを GitHub Actions / GitLab CI に組み込み:各 PR で 200-500 テストケースを実行し main ブランチのベースラインと比較。Claude Code と Codex CLI はいずれも `--eval-mode` フラグで構造化 JSON を出力可能、Grafana / Datadog 連携が容易。
Evals コスト爆発への対応
企業ユーザーからの質問:「Evals スイートを毎月走らせると API コストが爆発する。1000 ケース × 毎日 × 4 Agent バージョン = 月 12 万呼び出し、どうする?」解決策は 2 つ:(1) ブランド API サブスクリプションサービスに移行、統一課金で予算が予測可能 — 例えば QCode.cc 企業サブスクは独立した evals 枠付き;(2) キャッシュ + サンプリング戦略、nightly でフル実行、PR チェックは高優先サブセットのみ。
Harness Engineering との関係
Harness Engineering はマクロなシステム設計 — 制約・フィードバックループ・ライフサイクル・コンテキスト。Readiness Harness はその「フィードバックループ」サブセットで、「この Agent は本番に出せるか」の決定点に集中。両者は補完:harness が良ければ evals が問題を正確に検出;evals が成熟すれば harness を継続進化できる。
QCode.cc 企業サブスクで Evals スイートを実行
Claude Opus 4.7 · GPT-5.5 · 独立 evals 枠 · 月次予算管理可能