What is the Claude Sonnet 5 model id?

The model id is claude-sonnet-5 — a pinned, dateless snapshot with no -v1 suffix. On Amazon Bedrock it is anthropic.claude-sonnet-5, and on OpenRouter the slug is anthropic/claude-sonnet-5-20260630. Pass claude-sonnet-5 in the model field of any Messages API request.

Do I need to change my code to call Sonnet 5?

Mostly no — swap the model id to claude-sonnet-5 and your existing Messages API code keeps working. Two things to check: remove any temperature, top_p or top_k fields (they return HTTP 400 on Sonnet 5, same as Opus 4.7+), and do not send manual extended-thinking config — adaptive thinking is on by default and explicit thinking={"type":"enabled"} returns 400. Also re-tune max_tokens because the new tokenizer emits about 30% more tokens for the same text.

Which effort level should I use with Sonnet 5?

The default is high, which suits most agentic and coding work. Use low or medium for cheap, latency-sensitive calls (classification, extraction, short chat), and xhigh or max for the hardest multi-step reasoning where you want maximum depth. Effort trades latency and output tokens for reasoning depth, so start at high and adjust per workload.

Can I use Claude Sonnet 5 through QCode?

Yes. QCode exposes the same Messages API surface via its relay, so you keep the claude-sonnet-5 model id, the effort parameter and adaptive thinking unchanged — only the base URL and key differ. One QCode key works across Claude, Codex and Gemini models, and the relay provides stable low-latency access from mainland China.

全新 - 2026年6月30日发布

Claude Sonnet 5 API：几分钟即可快速上手

从 Messages API 调用 claude-sonnet-5 所需的一切 - 模型 id、可用的 curl 与 Python 示例、effort 参数、自适应思考，以及如何针对新分词器重新调优 max_tokens。

#claude-sonnet-5 #Messages API #effort 参数 #自适应思考 #QCode 中转

快速开始

Sonnet 5 可在标准 Messages API 上直接替换使用。如果你已经在调用 Opus 4.8 或 Sonnet 4.6，只需三个小步骤即可。

设置模型 id

使用 claude-sonnet-5 - 这是一个固定、无日期的快照，没有 -v1 后缀。基本调用无需任何其他改动。

去掉采样参数

移除 temperature、top_p 和 top_k。Sonnet 5 会以 HTTP 400 拒绝它们，与 Opus 4.7 及之后版本完全一致。

保持思考自适应

自适应思考默认开启。不要发送手动的 extended-thinking 配置 - 显式 thinking 会返回 400。请改用 effort 来调节深度。

Claude API 模型 id

claude-sonnet-5

Amazon Bedrock id

anthropic.claude-sonnet-5

OpenRouter slug

anthropic/claude-sonnet-5-20260630

curl - 基础 Messages 请求

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 4096,
    "thinking": { "type": "adaptive" },
    "effort": "high",
    "messages": [
      { "role": "user", "content": "Refactor this module and add tests." }
    ]
  }'
# NOTE: do NOT send temperature / top_p / top_k -> HTTP 400

Python - anthropic SDK

from anthropic import Anthropic

client = Anthropic()  # reads ANTHROPIC_API_KEY

resp = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},  # on by default
    effort="high",                  # low | medium | high | xhigh | max
    messages=[
        {"role": "user", "content": "Explain this stack trace and propose a fix."}
    ],
    # temperature / top_p / top_k omitted -> sending them returns HTTP 400
)
print(resp.content[0].text)

两个示例都特意省略了 temperature、top_p 和 top_k：向 claude-sonnet-5 发送其中任意一个都会返回 HTTP 400。自适应思考（thinking={"type":"adaptive"}）是默认设置，而 effort 字段控制模型在每个请求上花费多少推理。

重新调优你的 max_tokens

Sonnet 5 采用了新的分词器。相同文本消耗的 token 比 Sonnet 4.6 约多 30%，因此从旧代码照搬的限制和预算会出问题。

提高输出上限

原本能从容容纳 Sonnet 4.6 响应的 max_tokens 值现在可能被截断。请预留大约多 30% 的余量，最高至 128K 输出上限（通过 output-300k-2026-03-24 batches beta 头可达 300K）。

重新核对上下文预算

上下文窗口为 1M token - 既是默认值也是最大值，没有更小的变体 - 但按 token 计量的提示词会打包得更密集，因此请用 token 计数重新测量，而不要靠假设。

重新估算每请求成本

由于相同文本约多 30% 的 token，$2/MTok 输入 + $10/MTok 输出的入门价，最好理解为在相同文本上相对 Sonnet 4.6 的 $3/$15 大致成本持平 - 而非直接打了 33% 折扣。

入门定价（$2/MTok 输入 + $10/MTok 输出）持续至 2026年8月31日；标准定价从 2026年9月1日起为 $3/MTok 输入 + $15/MTok 输出。缓存读取为 $0.20 入门价 / $0.30 标准价，5 分钟缓存写入为基础输入的 1.25x，1 小时缓存写入为基础输入的 2x。请始终按新分词器来设定 max_tokens，而不要沿用旧的计数。

Effort 级别

effort 参数调节 Sonnet 5 在每个请求上花费多少推理。它接受五个级别；默认值为 high。

effort	适用场景	延迟与输出 token
low	分类、抽取、简短对话以及其他对延迟敏感、范围明确的调用。	最低延迟，最少推理 token。
medium	日常辅助以及较轻量的编码，此时你希望多一点斟酌但不需要完整深度。	中等延迟与 token 消耗。
high 默认	大多数智能体与编码工作 - 兼顾速度与强推理的均衡默认值。	均衡；推荐的起点。
xhigh	困难的多步调试、架构设计以及能从更深思考中获益的长周期智能体运行。	更高延迟，更多推理 token。
max	最苛刻的推理与判断任务，此时无论成本你都想要最大深度。	最高延迟与 token 消耗。

从 high 起步，仅在面对廉价、对延迟敏感的流量时下调，或在面对最难的问题时上调。Sonnet 5 以更低的价格接近 Opus 4.8 的质量，但在最难的编码、判断和网络安全任务上 Opus 4.8 仍然领先 - 当 Sonnet 5 用 max effort 仍不够时，就选它。

通过 QCode 使用 Sonnet 5

QCode 中转的是同一套 Messages API，因此你的 Sonnet 5 代码无需改动 - 只有 base URL 和密钥不同。

完全一致的 API 界面

相同的 claude-sonnet-5 模型 id、相同的 effort 参数、相同的自适应思考。将 SDK 指向中转的 base URL，你现有的代码即可正常工作。

一个密钥，多个模型

一个 QCode 密钥即可访问 Claude、Codex 和 Gemini 模型 - 无需在多个供应商账号或账单之间周旋。

稳定的中国访问

该中转提供来自中国大陆的低延迟、可靠访问，让 Sonnet 5 无需与跨境连通性搏斗即可使用。

工具即插即用

可配合 anthropic SDK、Claude Code 以及任何支持 Messages API 的客户端使用 - 设置好 base URL 即可上手。

Python - 通过 QCode 中转使用 Sonnet 5

from anthropic import Anthropic

client = Anthropic(
    base_url="https://relay.qcode.cc",  # QCode relay
    api_key="qk-..."                     # one key for Claude / Codex / Gemini
)

resp = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    effort="high",
    messages=[{"role": "user", "content": "Ship it."}],
)

常见问题

Claude Sonnet 5 的模型 id 是什么？

模型 id 是 claude-sonnet-5 - 一个固定、无日期的快照，没有 -v1 后缀。在 Amazon Bedrock 上它是 anthropic.claude-sonnet-5，在 OpenRouter 上 slug 为 anthropic/claude-sonnet-5-20260630。在任何 Messages API 请求的 model 字段中传入 claude-sonnet-5 即可。

调用 Sonnet 5 需要改动我的代码吗？

基本不用 - 把模型 id 换成 claude-sonnet-5，你现有的 Messages API 代码即可继续工作。有两点需要检查：移除任何 temperature、top_p 或 top_k 字段（它们在 Sonnet 5 上会返回 HTTP 400，与 Opus 4.7+ 相同），以及不要发送手动的 extended-thinking 配置 - 自适应思考默认开启，显式 thinking 配置会返回 400。此外还要重新调优 max_tokens，因为新分词器对相同文本会多产出约 30% 的 token。

Sonnet 5 我该使用哪个 effort 级别？

默认值是 high，适合大多数智能体与编码工作。对于分类、抽取和简短对话这类廉价、对延迟敏感的调用使用 low 或 medium，而对于你想要最大深度的最难多步推理使用 xhigh 或 max。effort 是以延迟和输出 token 换取推理深度，因此从 high 起步并按工作负载调整。

我可以通过 QCode 使用 Claude Sonnet 5 吗？

可以。QCode 通过其中转暴露同一套 Messages API 界面，因此你保持 claude-sonnet-5 模型 id、effort 参数和自适应思考不变 - 只有 base URL 和密钥不同。一个 QCode 密钥可跨 Claude、Codex 和 Gemini 模型使用，且该中转提供来自中国大陆的稳定低延迟访问。

开始用 Claude Sonnet 5 构建

获取一个可用于 Claude、Codex 和 Gemini 的密钥 - 稳定访问，且沿用你已在使用的同一套 Messages API。

获取 API 密钥查看定价浏览模型

Claude Sonnet 5 API：几分钟即可快速上手

快速开始

设置模型 id

去掉采样参数

保持思考自适应

重新调优你的 max_tokens

提高输出上限

重新核对上下文预算

重新估算每请求成本

Effort 级别

通过 QCode 使用 Sonnet 5

完全一致的 API 界面

一个密钥，多个模型

稳定的中国访问

工具即插即用

常见问题

Claude Sonnet 5 的模型 id 是什么？

调用 Sonnet 5 需要改动我的代码吗？

Sonnet 5 我该使用哪个 effort 级别？

我可以通过 QCode 使用 Claude Sonnet 5 吗？

开始用 Claude Sonnet 5 构建

相关指南

Claude Sonnet 5 概览

Sonnet 5 对比 Sonnet 4.6

Claude Sonnet 5 定价

Claude Code 成本优化

Claude Sonnet 5 API：几分钟即可 快速上手

快速开始

设置模型 id

去掉采样参数

保持思考自适应

重新调优你的 max_tokens

提高输出上限

重新核对上下文预算

重新估算每请求成本

Effort 级别

通过 QCode 使用 Sonnet 5

完全一致的 API 界面

一个密钥，多个模型

稳定的中国访问

工具即插即用

常见问题

Claude Sonnet 5 的模型 id 是什么？

调用 Sonnet 5 需要改动我的代码吗？

Sonnet 5 我该使用哪个 effort 级别？

我可以通过 QCode 使用 Claude Sonnet 5 吗？

开始用 Claude Sonnet 5 构建

相关指南

Claude Sonnet 5 概览

Sonnet 5 对比 Sonnet 4.6

Claude Sonnet 5 定价

Claude Code 成本优化

Claude Sonnet 5 API：几分钟即可快速上手