🏆 2026 Q2 ベンチマーク更新

SWE-Bench Pro 2026 — AI コーディングモデルのリアルなベンチマーク

GPT-5.3-Codex 56.8% SOTA、GPT-5.5 58.6%、GPT-5.2-Codex 80% Verified、Opus 4.7 は Fast Mode デフォルト。ベンチマーク仕様・スコア読解・シナリオ別選定を解説。

SWE-Bench Pro vs Verified — ベンチマーク仕様

SWE-Bench Verified（2024 年から普及）：人手検証済み GitHub issue 修復タスク約 500 問。SWE-Bench Pro（2026 年から主流）：Verified より難易度向上——長コンテキスト、複数ファイル変更、実 PR ワークフローに近い。Verified は 80% で飽和（5.2-Codex 達成）、Pro はまだ 40 ポイント余地があり主流ベンチマーク。Terminal-Bench 2.0 はターミナルエージェント、OSWorld は GUI、GDPval は専門知識。

2026 Q1-Q2 スコア推移

GPT-5.2-Codex（2026-01-14）：SWE-Bench Verified 80.0%、Pro 56.4%。GPT-5.3-Codex（2026-02-05）：Pro 56.8% 新高、Terminal-Bench 2.0 77.3%、OSWorld 64.7%。GPT-5.5（2026-Q2）：Pro 58.6% で再首位。Claude Opus 4.7（2026-Q2）：Fast Mode デフォルト、深いリファクタリング評価が高い。Gemini 3（2026-03）：Google 系強いが Pro はやや低い。

シナリオ別モデル選定

Pro 純スコア：GPT-5.5 > GPT-5.3-Codex > GPT-5.2-Codex > Opus 4.7（Pro は低めだが実戦リファクタが最強）。シナリオ別：1) Next.js/React マルチファイル編集 → Cursor Composer 2.0；2) Python/Django 深いリファクタ → Claude Opus 4.7 / Claude Code；3) Rust / ターミナルエージェント / 長 PR → GPT-5.3-Codex；4) 横断エージェント（コード+調査+ライティング）→ GPT-5.5。

QCode 経由で全主要モデルへ統合アクセス

QCode.cc は中国国内から主要コーディングモデルへの透明な統一 API ゲートウェイ——Claude（Opus 4.7 / Sonnet）、GPT（5.5 / Codex 系）、Gemini（3）等。1 つの契約で従量課金。Claude Code、Codex CLI、Cursor、Cline、Continue 等で base URL と model id を変えるだけでモデル切替可能。

FAQ

SWE-Bench Pro 58.6% は高い？どう読む？

Pro は Verified より大幅に難しく 58.6% は史上最高。直感的には 5 つの GitHub PR タスクのうち 3 つを end-to-end で正解。本番で人手 review + リトライを併用すると大幅な生産性向上。

コード特化の 5.3-Codex を汎用 5.5 が Pro で上回るのはなぜ？

Pro には横断推理やドキュメント理解を要するサブタスクが含まれ、5.5 の汎用性が活きる。純長時間コーディング、ターミナルエージェント、GUI タスクでは 5.3-Codex が SOTA。

Opus 4.7 の Pro スコアが未公表ですが？

Anthropic 内部値あり公式未公表。コミュニティ計測では長 Python リファクタや長コンテキスト RAG で Opus 4.7 が先頭。シナリオ別選定推奨：Python 深掘り → Opus 4.7、純ベンチマーク → 5.5/5.3-Codex。

QCode で全主要コーディングモデルへ一括接続

GPT-5.5 / 5.3-Codex / Opus 4.7 / Gemini 3 を QCode の統一ゲートウェイで利用、中国国内透明、従量課金。

QCode プランを開始