SWE-Bench Pro 2026 — AI コーディングモデルのリアルなベンチマーク
GPT-5.3-Codex 56.8% SOTA、GPT-5.5 58.6%、GPT-5.2-Codex 80% Verified、Opus 4.7 は Fast Mode デフォルト。ベンチマーク仕様・スコア読解・シナリオ別選定を解説。
SWE-Bench Pro vs Verified — ベンチマーク仕様
SWE-Bench Verified(2024 年から普及):人手検証済み GitHub issue 修復タスク約 500 問。SWE-Bench Pro(2026 年から主流):Verified より難易度向上——長コンテキスト、複数ファイル変更、実 PR ワークフローに近い。Verified は 80% で飽和(5.2-Codex 達成)、Pro はまだ 40 ポイント余地があり主流ベンチマーク。Terminal-Bench 2.0 はターミナルエージェント、OSWorld は GUI、GDPval は専門知識。
2026 Q1-Q2 スコア推移
GPT-5.2-Codex(2026-01-14):SWE-Bench Verified 80.0%、Pro 56.4%。GPT-5.3-Codex(2026-02-05):Pro 56.8% 新高、Terminal-Bench 2.0 77.3%、OSWorld 64.7%。GPT-5.5(2026-Q2):Pro 58.6% で再首位。Claude Opus 4.7(2026-Q2):Fast Mode デフォルト、深いリファクタリング評価が高い。Gemini 3(2026-03):Google 系強いが Pro はやや低い。
シナリオ別モデル選定
Pro 純スコア:GPT-5.5 > GPT-5.3-Codex > GPT-5.2-Codex > Opus 4.7(Pro は低めだが実戦リファクタが最強)。シナリオ別:1) Next.js/React マルチファイル編集 → Cursor Composer 2.0;2) Python/Django 深いリファクタ → Claude Opus 4.7 / Claude Code;3) Rust / ターミナルエージェント / 長 PR → GPT-5.3-Codex;4) 横断エージェント(コード+調査+ライティング)→ GPT-5.5。
QCode 経由で全主要モデルへ統合アクセス
QCode.cc は中国国内から主要コーディングモデルへの透明な統一 API ゲートウェイ——Claude(Opus 4.7 / Sonnet)、GPT(5.5 / Codex 系)、Gemini(3)等。1 つの契約で従量課金。Claude Code、Codex CLI、Cursor、Cline、Continue 等で base URL と model id を変えるだけでモデル切替可能。
FAQ
SWE-Bench Pro 58.6% は高い?どう読む?
Pro は Verified より大幅に難しく 58.6% は史上最高。直感的には 5 つの GitHub PR タスクのうち 3 つを end-to-end で正解。本番で人手 review + リトライを併用すると大幅な生産性向上。
コード特化の 5.3-Codex を汎用 5.5 が Pro で上回るのはなぜ?
Pro には横断推理やドキュメント理解を要するサブタスクが含まれ、5.5 の汎用性が活きる。純長時間コーディング、ターミナルエージェント、GUI タスクでは 5.3-Codex が SOTA。
Opus 4.7 の Pro スコアが未公表ですが?
Anthropic 内部値あり公式未公表。コミュニティ計測では長 Python リファクタや長コンテキスト RAG で Opus 4.7 が先頭。シナリオ別選定推奨:Python 深掘り → Opus 4.7、純ベンチマーク → 5.5/5.3-Codex。
QCode で全主要コーディングモデルへ一括接続
GPT-5.5 / 5.3-Codex / Opus 4.7 / Gemini 3 を QCode の統一ゲートウェイで利用、中国国内透明、従量課金。
QCode プランを開始