Claude Sonnet 5 对比 GPT-5.6 与 Gemini 3.1 Pro
Anthropic、OpenAI 与 Google 从未运行过统一的基准测试——因此并不存在单一的“胜者”数字。这里列出的是真正可比较的内容(价格、上下文、可用性)与不可比较的内容(排行榜分数),并诚实地将基准单元格留白。
一句话结论
这些厂商之间没有统一的基准测试——请从价格、性价比与可用性去比较,而不是单一分数。
Anthropic 没有为 Claude Sonnet 5 公布任何确切的基准数字;它只在定性上表示性能“接近 Opus 4.8”。OpenAI 与 Google 则在各自的日期、用各自的测试框架运行。因此真正有用的决策维度是成本、上下文窗口、输出上限,以及每个模型在何处真正普遍可用。Claude Sonnet 5 是一款中端、面向智能体编程的模型,以更低的价格接近 Opus 4.8——而 Opus 4.8 在最艰难的编程、判断与网络安全任务上仍然领先。在决定之前,请在你自己的工作负载上试用三者。
什么可比较、什么不可比较
✅ 你可以比较的内容
跨厂商对得上的是硬性、已公布的事实:每百万 token 的标价、上下文窗口大小、最大输出长度、知识截止日期,以及——至关重要的——真实的可用性(哪个模型在哪个平台是 GA、哪些层级仍是预览)。这些才是真正影响你账单和集成方案的数字,也是做决策的诚实依据。
🚫 你无法比较的内容
这里并不存在单一的“最佳模型”分数。Anthropic 没有为 Sonnet 5 发布任何 SWE-bench、Terminal-Bench 或 OSWorld 数字,也没有在相同的测试框架、提示词与快照上运行过跨厂商评测。任何把 Sonnet 5、GPT-5.6 与 Gemini 并排列出确切百分比的表格,都是把来自不同日期的第三方估算拼凑在一起——请把这些数字视为方向性参考,绝非权威。
规格与可用性一览
在厂商公布之处采用经核实的规格;基准一行有意留白。
| 属性 | Claude Sonnet 5 | GPT-5.6 | Gemini 3.1 Pro |
|---|---|---|---|
| 厂商与定位 | Anthropic · 中端,速度/智能的最佳平衡 | OpenAI · 旗舰产品线 | Google · 旗舰产品线 |
| 上下文窗口 | 1M token(默认即最大) | 取决于层级——见 OpenAI 文档 | 厂商列出——见 Google Vertex 文档 |
| 最大输出 | 128K(通过 Batches beta 最高可达 300K) | 厂商列出 | 厂商列出 |
| 价格(每 MTok 输入 / 输出) | $2 / $10 首发价(→ 自 2026年9月1日起 $3 / $15) | 取决于层级;顶级层级未全面 GA | 见 Google 定价(地区/层级) |
| 知识截止日期 | 2026年1月 | 厂商列出 | 厂商列出 |
| 可用性 / GA 状态 | GA——Free 与 Pro 上的默认模型;API、Bedrock、Vertex AI、Foundry、Copilot、OpenRouter | 正在陆续推出;顶级层级(如 Sol Ultra)为限量预览 | 因地区与平台而异 |
| 公开基准(SWE-bench / Terminal-Bench) | — 厂商未公布 | — 无统一测试框架 | — 无统一测试框架 |
| 最适合场景 | 以中端价格进行智能体编程;接近 Opus 的质量 | 在你自己的任务组合上试用 | 在你自己的任务组合上试用 |
Claude Sonnet 5 的规格与定价依据 anthropic.com/news/claude-sonnet-5 与 platform.claude.com 文档(首发价输入/输出 $2/$10,持续至 2026年8月31日,之后为 $3/$15;新分词器在相同文本上多用约 30% 的 token,因此相对 Sonnet 4.6 的 $3/$15,首发价大致成本中性)。GPT-5.6 与 Gemini 单元格是指向各厂商自有文档的方向性指引,并非经 QCode 核实的数字。此处没有任何基准数字是 Anthropic 公布的。
两个让网上多数比较失效的注意事项
🔮 GPT-5.6 顶级层级是限量预览,而非 GA
被炒作得最厉害的 GPT-5.6 层级——以 Sol Ultra 等名称营销——据报道是限量预览而非普遍可用,且访问权限因套餐和地区而异。拿一个仅限预览的层级去对比一个 GA 模型是牛头不对马嘴:你甚至可能根本调不到某项基准所使用的那个层级。在围绕它做规划之前,请务必向厂商确认你实际的 GPT-5.6 层级访问权限。
📅 多数“Sonnet 对比 Gemini”表格都是 Sonnet 4.6 时代的
Claude Sonnet 5 于 2026-06-30 发布,因此网上流传的绝大多数“Sonnet 对比 Gemini”对比表都是基于 Claude Sonnet 4.6 制作、且从未更新的。它们带着旧价格、旧上下文上限和旧快照。请注意,Sonnet 4.6(claude-sonnet-4-6)仍处于 Active——未退役,暂定退役不早于 2027年2月17日——而 Sonnet 5 是推荐的后继者与新的默认模型。如果一张表格没有写明“Sonnet 5”,就当它已经过时。
用一把 QCode 密钥使用三者
与其从并不存在的数字里挑一个胜者,不如自己跑一场对决。一把 QCode API 密钥即可让你把智能体编程路由到 Claude Sonnet 5,把 GPT-5.x 路由到 OpenAI 兼容产品线,从而对同一任务进行 A/B,并以真实的输出、延迟和成本来判断。
export ANTHROPIC_BASE_URL="https://api.qcode.cc"
export ANTHROPIC_AUTH_TOKEN="$QCODE_KEY"
export ANTHROPIC_MODEL="claude-sonnet-5"
claude
npm install -g @openai/codex
# add QCode profile in ~/.codex/config.toml
codex --profile qcode
把 Claude Code 指向 api.qcode.cc 并使用模型 claude-sonnet-5,再为 Codex CLI 添加一个 QCode 配置以使用 GPT-5.x。然后用每个模型跑同一个任务,并在你自己的仓库上比较——这才是对你的决策真正重要的唯一基准。Gemini 的访问权限取决于你的套餐和地区;请向厂商确认当前可用性。
常见问题
这三者中哪个最适合编程?
Anthropic、OpenAI 与 Google 之间没有统一、由厂商公布的基准,因此无法从官方数字中给任何单一模型加冕“最适合编程”。Anthropic 将 Claude Sonnet 5 定位为一款中端智能体编程模型,其质量以更低的价格接近 Opus 4.8;而 Opus 4.8 在最艰难的编程与判断任务上仍然领先。诚实的做法是在你自己的仓库上试用三者,并以你的任务组合、延迟和成本来评估,而不是看排行榜。
Claude Sonnet 5 比 GPT-5.6 更好吗?
从已公布的数据没人能下这个结论。Anthropic 没有为 Sonnet 5 发布确切的基准数字,两家厂商也没有共同运行过对等的比较。Sonnet 5 是一款中端模型,定价为每 MTok 输入 $2、输出 $10(首发价,持续至 2026年8月31日;之后为 $3/$15)。你在网上看到的任何“Sonnet 5 胜过 GPT-5.6”的说法都是第三方估算,而非厂商结果。
我能在它们之间比较 SWE-bench 分数吗?
无法可靠地比较。Anthropic 没有为 Claude Sonnet 5 公布任何确切的 SWE-bench、Terminal-Bench 或 OSWorld 数字——只有“接近 Opus 4.8”这一定性说法。跨厂商的 SWE-bench 表格通常混用了不同的测试框架、日期和模型快照,因此并不能直接比较。请把你看到的任何数字视为第三方估算,而非 Anthropic 公布的数字。
GPT-5.6 普遍可用吗?
可用性并不均衡。据报道,GPT-5.6 的顶级层级(营销名称如 Sol Ultra)是限量预览而非普遍可用,且访问权限因套餐和地区而异。相比之下,Claude Sonnet 5 已经 GA:它是 Free 与 Pro 套餐上的默认模型,并可通过 Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、GitHub Copilot 与 OpenRouter 使用。在投入之前,请务必向厂商确认 GPT-5.6 的层级访问权限。