三家厂商对比 · 最大限度保留余地

Claude Sonnet 5 对比 GPT-5.6 与 Gemini 3.1 Pro

Anthropic、OpenAI 与 Google 从未运行过统一的基准测试——因此并不存在单一的“胜者”数字。这里列出的是真正可比较的内容(价格、上下文、可用性)与不可比较的内容(排行榜分数),并诚实地将基准单元格留白。

#Claude Sonnet 5 #GPT-5.6 #Gemini 3.1 Pro #诚实对比

一句话结论

这些厂商之间没有统一的基准测试——请从价格、性价比与可用性去比较,而不是单一分数。

Anthropic 没有为 Claude Sonnet 5 公布任何确切的基准数字;它只在定性上表示性能“接近 Opus 4.8”。OpenAI 与 Google 则在各自的日期、用各自的测试框架运行。因此真正有用的决策维度是成本、上下文窗口、输出上限,以及每个模型在何处真正普遍可用。Claude Sonnet 5 是一款中端、面向智能体编程的模型,以更低的价格接近 Opus 4.8——而 Opus 4.8 在最艰难的编程、判断与网络安全任务上仍然领先。在决定之前,请在你自己的工作负载上试用三者。

什么可比较、什么不可比较

✅ 你可以比较的内容

跨厂商对得上的是硬性、已公布的事实:每百万 token 的标价、上下文窗口大小、最大输出长度、知识截止日期,以及——至关重要的——真实的可用性(哪个模型在哪个平台是 GA、哪些层级仍是预览)。这些才是真正影响你账单和集成方案的数字,也是做决策的诚实依据。

🚫 你无法比较的内容

这里并不存在单一的“最佳模型”分数。Anthropic 没有为 Sonnet 5 发布任何 SWE-bench、Terminal-Bench 或 OSWorld 数字,也没有在相同的测试框架、提示词与快照上运行过跨厂商评测。任何把 Sonnet 5、GPT-5.6 与 Gemini 并排列出确切百分比的表格,都是把来自不同日期的第三方估算拼凑在一起——请把这些数字视为方向性参考,绝非权威。

规格与可用性一览

在厂商公布之处采用经核实的规格;基准一行有意留白。

属性 Claude Sonnet 5 GPT-5.6 Gemini 3.1 Pro
厂商与定位Anthropic · 中端,速度/智能的最佳平衡OpenAI · 旗舰产品线Google · 旗舰产品线
上下文窗口1M token(默认即最大)取决于层级——见 OpenAI 文档厂商列出——见 Google Vertex 文档
最大输出128K(通过 Batches beta 最高可达 300K)厂商列出厂商列出
价格(每 MTok 输入 / 输出)$2 / $10 首发价(→ 自 2026年9月1日起 $3 / $15)取决于层级;顶级层级未全面 GA见 Google 定价(地区/层级)
知识截止日期2026年1月厂商列出厂商列出
可用性 / GA 状态GA——Free 与 Pro 上的默认模型;API、Bedrock、Vertex AI、Foundry、Copilot、OpenRouter正在陆续推出;顶级层级(如 Sol Ultra)为限量预览因地区与平台而异
公开基准(SWE-bench / Terminal-Bench)— 厂商未公布— 无统一测试框架— 无统一测试框架
最适合场景以中端价格进行智能体编程;接近 Opus 的质量在你自己的任务组合上试用在你自己的任务组合上试用

Claude Sonnet 5 的规格与定价依据 anthropic.com/news/claude-sonnet-5 与 platform.claude.com 文档(首发价输入/输出 $2/$10,持续至 2026年8月31日,之后为 $3/$15;新分词器在相同文本上多用约 30% 的 token,因此相对 Sonnet 4.6 的 $3/$15,首发价大致成本中性)。GPT-5.6 与 Gemini 单元格是指向各厂商自有文档的方向性指引,并非经 QCode 核实的数字。此处没有任何基准数字是 Anthropic 公布的。

两个让网上多数比较失效的注意事项

🔮 GPT-5.6 顶级层级是限量预览,而非 GA

被炒作得最厉害的 GPT-5.6 层级——以 Sol Ultra 等名称营销——据报道是限量预览而非普遍可用,且访问权限因套餐和地区而异。拿一个仅限预览的层级去对比一个 GA 模型是牛头不对马嘴:你甚至可能根本调不到某项基准所使用的那个层级。在围绕它做规划之前,请务必向厂商确认你实际的 GPT-5.6 层级访问权限。

📅 多数“Sonnet 对比 Gemini”表格都是 Sonnet 4.6 时代的

Claude Sonnet 5 于 2026-06-30 发布,因此网上流传的绝大多数“Sonnet 对比 Gemini”对比表都是基于 Claude Sonnet 4.6 制作、且从未更新的。它们带着旧价格、旧上下文上限和旧快照。请注意,Sonnet 4.6(claude-sonnet-4-6)仍处于 Active——未退役,暂定退役不早于 2027年2月17日——而 Sonnet 5 是推荐的后继者与新的默认模型。如果一张表格没有写明“Sonnet 5”,就当它已经过时。

用一把 QCode 密钥使用三者

与其从并不存在的数字里挑一个胜者,不如自己跑一场对决。一把 QCode API 密钥即可让你把智能体编程路由到 Claude Sonnet 5,把 GPT-5.x 路由到 OpenAI 兼容产品线,从而对同一任务进行 A/B,并以真实的输出、延迟和成本来判断。

Claude Code (Claude Sonnet 5)
export ANTHROPIC_BASE_URL="https://api.qcode.cc"
export ANTHROPIC_AUTH_TOKEN="$QCODE_KEY"
export ANTHROPIC_MODEL="claude-sonnet-5"
claude
OpenAI Codex CLI (GPT-5.x)
npm install -g @openai/codex
# add QCode profile in ~/.codex/config.toml
codex --profile qcode

把 Claude Code 指向 api.qcode.cc 并使用模型 claude-sonnet-5,再为 Codex CLI 添加一个 QCode 配置以使用 GPT-5.x。然后用每个模型跑同一个任务,并在你自己的仓库上比较——这才是对你的决策真正重要的唯一基准。Gemini 的访问权限取决于你的套餐和地区;请向厂商确认当前可用性。

常见问题

这三者中哪个最适合编程?

Anthropic、OpenAI 与 Google 之间没有统一、由厂商公布的基准,因此无法从官方数字中给任何单一模型加冕“最适合编程”。Anthropic 将 Claude Sonnet 5 定位为一款中端智能体编程模型,其质量以更低的价格接近 Opus 4.8;而 Opus 4.8 在最艰难的编程与判断任务上仍然领先。诚实的做法是在你自己的仓库上试用三者,并以你的任务组合、延迟和成本来评估,而不是看排行榜。

Claude Sonnet 5 比 GPT-5.6 更好吗?

从已公布的数据没人能下这个结论。Anthropic 没有为 Sonnet 5 发布确切的基准数字,两家厂商也没有共同运行过对等的比较。Sonnet 5 是一款中端模型,定价为每 MTok 输入 $2、输出 $10(首发价,持续至 2026年8月31日;之后为 $3/$15)。你在网上看到的任何“Sonnet 5 胜过 GPT-5.6”的说法都是第三方估算,而非厂商结果。

我能在它们之间比较 SWE-bench 分数吗?

无法可靠地比较。Anthropic 没有为 Claude Sonnet 5 公布任何确切的 SWE-bench、Terminal-Bench 或 OSWorld 数字——只有“接近 Opus 4.8”这一定性说法。跨厂商的 SWE-bench 表格通常混用了不同的测试框架、日期和模型快照,因此并不能直接比较。请把你看到的任何数字视为第三方估算,而非 Anthropic 公布的数字。

GPT-5.6 普遍可用吗?

可用性并不均衡。据报道,GPT-5.6 的顶级层级(营销名称如 Sol Ultra)是限量预览而非普遍可用,且访问权限因套餐和地区而异。相比之下,Claude Sonnet 5 已经 GA:它是 Free 与 Pro 套餐上的默认模型,并可通过 Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、GitHub Copilot 与 OpenRouter 使用。在投入之前,请务必向厂商确认 GPT-5.6 的层级访问权限。

在 QCode 上跑你自己的对决

一把密钥、真实任务、诚实结果——用你自己的数字来决定,而不是别人的排行榜。