Claude Sonnet 5 vs GPT-5.6 vs Gemini 3.1 Pro
Anthropic、OpenAI、Google は共通ベンチマークを一度も実施していないため、単一の「勝者」を示す数値は存在しません。ここでは本当に比較可能なもの(価格、コンテキスト、提供状況)と、比較できないもの(リーダーボードのスコア)を示し、ベンチマークのセルは誠実に空欄のままにしています。
一言でいう結論
これらのベンダー間に共通ベンチマークは存在しません。単一スコアではなく、価格・価値・提供状況で比較しましょう。
Anthropic は Claude Sonnet 5 について正確なベンチマーク数値を一切公表しておらず、性能は定性的に「Opus 4.8 に近い」とだけ述べています。OpenAI と Google はそれぞれ独自のハーネスを、それぞれの日付で走らせています。したがって有用な判断軸は、コスト、コンテキストウィンドウ、出力上限、そして各モデルが実際にどこで一般提供(GA)されているかです。Claude Sonnet 5 はミッドティアのエージェンティックコーディングモデルで、より低価格で Opus 4.8 に迫ります。最も難しいコーディング、判断、サイバー系タスクでは依然として Opus 4.8 が先行します。決める前に、あなた自身のワークロードで 3 モデルすべてを試してください。
比較できるものと、できないもの
✅ 比較「できる」もの
確固たる公表事実はベンダー間で並べられます。100 万トークンあたりのリスト価格、コンテキストウィンドウのサイズ、最大出力長、ナレッジカットオフ、そして——決定的に重要な——実際の提供状況(どのモデルがどのプラットフォームで GA なのか、どのティアがまだプレビューなのか)です。これらはあなたの請求額と統合計画を実際に左右する数値であり、判断のための誠実な土台となります。
🚫 比較「できない」もの
ここには単一の「最良モデル」スコアは存在しません。Anthropic は Sonnet 5 について SWE-bench、Terminal-Bench、OSWorld のいずれの数値も公表しておらず、同一のハーネス・プロンプト・スナップショットでのベンダー横断評価も行われていません。Sonnet 5、GPT-5.6、Gemini を正確なパーセンテージで並べて示す表はすべて、異なる日付の第三者推定を継ぎ接ぎしたものです。それらの数値は方向性の参考として扱い、権威あるものとは決して見なさないでください。
スペックと提供状況を一目で
ベンダーが公表しているスペックは検証済み。ベンチマーク行はあえて空欄にしています。
| 属性 | Claude Sonnet 5 | GPT-5.6 | Gemini 3.1 Pro |
|---|---|---|---|
| ベンダーとポジショニング | Anthropic · ミッドティア、速度と知性の最良のバランス | OpenAI · フラッグシップライン | Google · フラッグシップライン |
| コンテキストウィンドウ | 1M トークン(デフォルト = 最大) | ティア依存 — OpenAI のドキュメントを参照 | ベンダー記載 — Google Vertex のドキュメントを参照 |
| 最大出力 | 128K(Batches ベータ経由で最大 300K) | ベンダー記載 | ベンダー記載 |
| 価格(MTok あたり 入力 / 出力) | $2 / $10 導入価格(→ 2026年9月1日から $3 / $15) | ティア依存。上位ティアは全面 GA ではない | Google の価格を参照(地域 / ティア) |
| ナレッジカットオフ | 2026年1月 | ベンダー記載 | ベンダー記載 |
| 提供状況 / GA ステータス | GA — Free と Pro のデフォルト。API、Bedrock、Vertex AI、Foundry、Copilot、OpenRouter | 順次展開中。上位ティア(例:Sol Ultra)は限定プレビュー | 地域とプラットフォームにより異なる |
| 公開ベンチマーク(SWE-bench / Terminal-Bench) | — ベンダー未公表 | — 共通ハーネスなし | — 共通ハーネスなし |
| 最適な用途 | ミッドティア価格でのエージェンティックコーディング。Opus に近い品質 | あなた自身のタスク構成で試用 | あなた自身のタスク構成で試用 |
Claude Sonnet 5 のスペックと価格は anthropic.com/news/claude-sonnet-5 および platform.claude.com のドキュメントに準拠(導入価格は入力 / 出力 $2/$10、2026年8月31日まで、その後 $3/$15。新しいトークナイザーは同じテキストで約 30% 多くトークンを使うため、導入価格は Sonnet 4.6 の $3/$15 と比べてほぼコスト中立です)。GPT-5.6 と Gemini のセルは各ベンダー自身のドキュメントへの方向性の参考であり、QCode が検証した数値ではありません。ここに Anthropic が公表したベンチマーク数値はありません。
オンラインの比較の大半を崩す 2 つの注意点
🔮 GPT-5.6 の上位ティアは限定プレビューであり、GA ではない
最も話題になっている GPT-5.6 のティア——Sol Ultra などの名称で売り出されているもの——は、一般提供ではなく限定プレビューと報じられており、アクセスはプランと地域によって異なります。プレビュー限定のティアを GA モデルと比較するのは、りんごとみかんを比べるようなものです。ベンチマークが使ったティアを、あなたは呼び出すことすらできないかもしれません。それを前提に計画を立てる前に、必ずあなたの実際の GPT-5.6 ティアへのアクセスをベンダーに確認してください。
📅 「Sonnet vs Gemini」の表の大半は Sonnet 4.6 時代のもの
Claude Sonnet 5 は 2026年6月30日にローンチされたため、オンラインで出回っている「Sonnet vs Gemini」比較表の圧倒的多数は Claude Sonnet 4.6 を対象に作られ、一度も更新されていません。それらは古い価格、古いコンテキスト上限、古いスナップショットを載せています。なお Sonnet 4.6(claude-sonnet-4-6)は依然として Active であり、廃止されておらず、暫定的な廃止時期も 2027年2月17日以降とされています。Sonnet 5 が推奨される後継であり、新しいデフォルトです。表に「Sonnet 5」と書かれていなければ、古いものと考えてください。
1 つの QCode キーで 3 モデルすべてを使う
存在しない数値から勝者を選ぶ代わりに、あなた自身の比較検証(bake-off)を実施しましょう。1 つの QCode API キーで、エージェンティックコーディングには Claude Sonnet 5 へ、GPT-5.x には OpenAI 互換ラインへとルーティングできるため、同じタスクを A/B し、実際の出力・レイテンシ・コストで判断できます。
export ANTHROPIC_BASE_URL="https://api.qcode.cc"
export ANTHROPIC_AUTH_TOKEN="$QCODE_KEY"
export ANTHROPIC_MODEL="claude-sonnet-5"
claude
npm install -g @openai/codex
# add QCode profile in ~/.codex/config.toml
codex --profile qcode
Claude Code を api.qcode.cc に向けてモデル claude-sonnet-5 を指定し、Codex CLI には GPT-5.x 用の QCode プロファイルを追加します。次に同一のタスクをそれぞれで実行し、あなた自身のリポジトリで比較してください——それがあなたの判断にとって唯一本当に意味のあるベンチマークです。Gemini へのアクセスはプランと地域に依存します。現在の提供状況はベンダーで確認してください。
よくある質問
この 3 つのうち、コーディングに最適なのはどれですか?
Anthropic、OpenAI、Google の間に共通のベンダー公表ベンチマークは存在しないため、公式な数値から単一のモデルを「コーディングに最適」と決めることはできません。Anthropic は Claude Sonnet 5 を、より低価格で品質が Opus 4.8 に近づくミッドティアのエージェンティックコーディングモデルと位置づけています。最も難しいコーディングと判断のタスクでは依然として Opus 4.8 が先行します。誠実なアプローチは、あなた自身のリポジトリで 3 モデルすべてを試し、リーダーボードではなくあなたのタスク構成・レイテンシ・コストで評価することです。
Claude Sonnet 5 は GPT-5.6 より優れていますか?
公表データからは誰も断言できません。Anthropic は Sonnet 5 の正確なベンチマーク数値を公表しておらず、両ベンダーがともに実施した同一条件の比較も存在しません。Sonnet 5 はミッドティアのモデルで、価格は入力 $2/MTok、出力 $10/MTok です(導入価格、2026年8月31日まで。その後 $3/$15)。オンラインで見かける「Sonnet 5 が GPT-5.6 に勝る」という主張はすべて第三者の推定であり、ベンダーの結果ではありません。
両者の SWE-bench スコアを比較できますか?
信頼できる形ではできません。Anthropic は Claude Sonnet 5 について SWE-bench、Terminal-Bench、OSWorld の正確な数値を一切公表しておらず、その性能が「Opus 4.8 に近い」という定性的な主張のみです。ベンダー横断の SWE-bench 表は通常、異なるハーネス・日付・モデルスナップショットを混在させているため、直接比較はできません。見かけたどの数値も、Anthropic が公表した数値ではなく第三者の推定として扱ってください。
GPT-5.6 は一般提供されていますか?
提供状況はまちまちです。GPT-5.6 の上位ティア(Sol Ultra などの売り出し名称)は、一般提供ではなく限定プレビューと報じられており、アクセスはプランと地域によって異なります。対照的に Claude Sonnet 5 は GA です。Free と Pro プランのデフォルトモデルであり、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、GitHub Copilot、OpenRouter 経由で利用できます。計画に組み込む前に、必ず GPT-5.6 のティアアクセスをベンダーに確認してください。