2026 Agent エンジニアリング次の主戦場

AI Agent Evals と Readiness Harness

デモから本番へ · 7 つの評価次元 · 4 つの Harness パターン · CI 統合実戦

#AIAgentEvals#ReadinessHarness#LLMEvals#AgentSLA#2026

なぜ Evals が Agent エンジニアリング最大のボトルネックか

2026 年 AI Agent プロジェクトの最大の障害はモデル選定ではなく「デモでは動くが本番で 3 日で壊れる」問題です。業界データでは 68% の Agent プロジェクトが評価段階で停止 — 再現可能な evals がなければ、実ユーザートラフィックを通す勇気は誰にも出ません。Evals と Readiness Harness は、Agent デモを本番システムに変えるエンジニアリング基盤です。

7 つの評価次元

01 Correctness:出力が正しいか、ground truth または人手 gold セットで測定
02 Safety:有害・非準拠・権限外コンテンツを生成していないか
03 Cost:タスクあたり平均トークン / ドルコストが予算内か
04 Latency:p50 / p99 レイテンシが SLA を満たすか
05 Tool-use:ツール呼び出しが正確、引数が妥当、無限ループがないか
06 Hallucination:事実捏造や誤引用がないか
07 Regression:新バージョンが旧バージョンに対してスコア下落していないか

4 つの Readiness Harness パターン

Sandbox モード

完全隔離環境で evals 実行、PR チェック / nightly に最適、本番影響ゼロ

Shadow モード

新 Agent が旧 Agent と並行して実トラフィックを受けるがユーザーには応答せず、出力差分を比較

Canary モード

新 Agent が 1-5% のトラフィックを取得、7 次元を監視、閾値超過で自動ロールバック

Gated モード

Evals スイートを CI の必須 gate に、いかなる回帰もマージをブロック

CI 統合実戦

Evals スイートを GitHub Actions / GitLab CI に組み込み:各 PR で 200-500 テストケースを実行し main ブランチのベースラインと比較。Claude Code と Codex CLI はいずれも `--eval-mode` フラグで構造化 JSON を出力可能、Grafana / Datadog 連携が容易。

Evals コスト爆発への対応

企業ユーザーからの質問:「Evals スイートを毎月走らせると API コストが爆発する。1000 ケース × 毎日 × 4 Agent バージョン = 月 12 万呼び出し、どうする?」解決策は 2 つ:(1) ブランド API サブスクリプションサービスに移行、統一課金で予算が予測可能 — 例えば QCode.cc 企業サブスクは独立した evals 枠付き;(2) キャッシュ + サンプリング戦略、nightly でフル実行、PR チェックは高優先サブセットのみ。

Harness Engineering との関係

Harness Engineering はマクロなシステム設計 — 制約・フィードバックループ・ライフサイクル・コンテキスト。Readiness Harness はその「フィードバックループ」サブセットで、「この Agent は本番に出せるか」の決定点に集中。両者は補完:harness が良ければ evals が問題を正確に検出;evals が成熟すれば harness を継続進化できる。

QCode.cc 企業サブスクで Evals スイートを実行

Claude Opus 4.7 · GPT-5.5 · 独立 evals 枠 · 月次予算管理可能