全新 - 2026年6月30日发布

Claude Sonnet 5 API:几分钟即可 快速上手

从 Messages API 调用 claude-sonnet-5 所需的一切 - 模型 id、可用的 curl 与 Python 示例、effort 参数、自适应思考,以及如何针对新分词器重新调优 max_tokens。

#claude-sonnet-5 #Messages API #effort 参数 #自适应思考 #QCode 中转

快速开始

Sonnet 5 可在标准 Messages API 上直接替换使用。如果你已经在调用 Opus 4.8 或 Sonnet 4.6,只需三个小步骤即可。

1

设置模型 id

使用 claude-sonnet-5 - 这是一个固定、无日期的快照,没有 -v1 后缀。基本调用无需任何其他改动。

2

去掉采样参数

移除 temperature、top_p 和 top_k。Sonnet 5 会以 HTTP 400 拒绝它们,与 Opus 4.7 及之后版本完全一致。

3

保持思考自适应

自适应思考默认开启。不要发送手动的 extended-thinking 配置 - 显式 thinking 会返回 400。请改用 effort 来调节深度。

Claude API 模型 id
claude-sonnet-5
Amazon Bedrock id
anthropic.claude-sonnet-5
OpenRouter slug
anthropic/claude-sonnet-5-20260630
curl - 基础 Messages 请求
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 4096,
    "thinking": { "type": "adaptive" },
    "effort": "high",
    "messages": [
      { "role": "user", "content": "Refactor this module and add tests." }
    ]
  }'
# NOTE: do NOT send temperature / top_p / top_k -> HTTP 400
Python - anthropic SDK
from anthropic import Anthropic

client = Anthropic()  # reads ANTHROPIC_API_KEY

resp = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},  # on by default
    effort="high",                  # low | medium | high | xhigh | max
    messages=[
        {"role": "user", "content": "Explain this stack trace and propose a fix."}
    ],
    # temperature / top_p / top_k omitted -> sending them returns HTTP 400
)
print(resp.content[0].text)

两个示例都特意省略了 temperature、top_p 和 top_k:向 claude-sonnet-5 发送其中任意一个都会返回 HTTP 400。自适应思考(thinking={"type":"adaptive"})是默认设置,而 effort 字段控制模型在每个请求上花费多少推理。

重新调优你的 max_tokens

Sonnet 5 采用了新的分词器。相同文本消耗的 token 比 Sonnet 4.6 约多 30%,因此从旧代码照搬的限制和预算会出问题。

提高输出上限

原本能从容容纳 Sonnet 4.6 响应的 max_tokens 值现在可能被截断。请预留大约多 30% 的余量,最高至 128K 输出上限(通过 output-300k-2026-03-24 batches beta 头可达 300K)。

重新核对上下文预算

上下文窗口为 1M token - 既是默认值也是最大值,没有更小的变体 - 但按 token 计量的提示词会打包得更密集,因此请用 token 计数重新测量,而不要靠假设。

重新估算每请求成本

由于相同文本约多 30% 的 token,$2/MTok 输入 + $10/MTok 输出的入门价,最好理解为在相同文本上相对 Sonnet 4.6 的 $3/$15 大致成本持平 - 而非直接打了 33% 折扣。

入门定价($2/MTok 输入 + $10/MTok 输出)持续至 2026年8月31日;标准定价从 2026年9月1日起为 $3/MTok 输入 + $15/MTok 输出。缓存读取为 $0.20 入门价 / $0.30 标准价,5 分钟缓存写入为基础输入的 1.25x,1 小时缓存写入为基础输入的 2x。请始终按新分词器来设定 max_tokens,而不要沿用旧的计数。

Effort 级别

effort 参数调节 Sonnet 5 在每个请求上花费多少推理。它接受五个级别;默认值为 high。

effort 适用场景 延迟与输出 token
low 分类、抽取、简短对话以及其他对延迟敏感、范围明确的调用。 最低延迟,最少推理 token。
medium 日常辅助以及较轻量的编码,此时你希望多一点斟酌但不需要完整深度。 中等延迟与 token 消耗。
high 默认 大多数智能体与编码工作 - 兼顾速度与强推理的均衡默认值。 均衡;推荐的起点。
xhigh 困难的多步调试、架构设计以及能从更深思考中获益的长周期智能体运行。 更高延迟,更多推理 token。
max 最苛刻的推理与判断任务,此时无论成本你都想要最大深度。 最高延迟与 token 消耗。

从 high 起步,仅在面对廉价、对延迟敏感的流量时下调,或在面对最难的问题时上调。Sonnet 5 以更低的价格接近 Opus 4.8 的质量,但在最难的编码、判断和网络安全任务上 Opus 4.8 仍然领先 - 当 Sonnet 5 用 max effort 仍不够时,就选它。

通过 QCode 使用 Sonnet 5

QCode 中转的是同一套 Messages API,因此你的 Sonnet 5 代码无需改动 - 只有 base URL 和密钥不同。

完全一致的 API 界面

相同的 claude-sonnet-5 模型 id、相同的 effort 参数、相同的自适应思考。将 SDK 指向中转的 base URL,你现有的代码即可正常工作。

一个密钥,多个模型

一个 QCode 密钥即可访问 Claude、Codex 和 Gemini 模型 - 无需在多个供应商账号或账单之间周旋。

稳定的中国访问

该中转提供来自中国大陆的低延迟、可靠访问,让 Sonnet 5 无需与跨境连通性搏斗即可使用。

工具即插即用

可配合 anthropic SDK、Claude Code 以及任何支持 Messages API 的客户端使用 - 设置好 base URL 即可上手。

Python - 通过 QCode 中转使用 Sonnet 5
from anthropic import Anthropic

client = Anthropic(
    base_url="https://relay.qcode.cc",  # QCode relay
    api_key="qk-..."                     # one key for Claude / Codex / Gemini
)

resp = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    effort="high",
    messages=[{"role": "user", "content": "Ship it."}],
)

常见问题

Claude Sonnet 5 的模型 id 是什么?

模型 id 是 claude-sonnet-5 - 一个固定、无日期的快照,没有 -v1 后缀。在 Amazon Bedrock 上它是 anthropic.claude-sonnet-5,在 OpenRouter 上 slug 为 anthropic/claude-sonnet-5-20260630。在任何 Messages API 请求的 model 字段中传入 claude-sonnet-5 即可。

调用 Sonnet 5 需要改动我的代码吗?

基本不用 - 把模型 id 换成 claude-sonnet-5,你现有的 Messages API 代码即可继续工作。有两点需要检查:移除任何 temperature、top_p 或 top_k 字段(它们在 Sonnet 5 上会返回 HTTP 400,与 Opus 4.7+ 相同),以及不要发送手动的 extended-thinking 配置 - 自适应思考默认开启,显式 thinking 配置会返回 400。此外还要重新调优 max_tokens,因为新分词器对相同文本会多产出约 30% 的 token。

Sonnet 5 我该使用哪个 effort 级别?

默认值是 high,适合大多数智能体与编码工作。对于分类、抽取和简短对话这类廉价、对延迟敏感的调用使用 low 或 medium,而对于你想要最大深度的最难多步推理使用 xhigh 或 max。effort 是以延迟和输出 token 换取推理深度,因此从 high 起步并按工作负载调整。

我可以通过 QCode 使用 Claude Sonnet 5 吗?

可以。QCode 通过其中转暴露同一套 Messages API 界面,因此你保持 claude-sonnet-5 模型 id、effort 参数和自适应思考不变 - 只有 base URL 和密钥不同。一个 QCode 密钥可跨 Claude、Codex 和 Gemini 模型使用,且该中转提供来自中国大陆的稳定低延迟访问。

开始用 Claude Sonnet 5 构建

获取一个可用于 Claude、Codex 和 Gemini 的密钥 - 稳定访问,且沿用你已在使用的同一套 Messages API。