Claude Sonnet 5 API:数分でクイックスタート
Messages APIからclaude-sonnet-5を呼び出すために必要なすべて - モデルID、動作するcurlとPythonの例、effortパラメータ、適応的思考、そして新しいトークナイザーに合わせたmax_tokensの再調整方法。
クイックスタート
Sonnet 5は標準のMessages APIにそのまま使えます。すでにOpus 4.8やSonnet 4.6を呼び出しているなら、あと3つの小さなステップで完了です。
モデルIDを設定する
claude-sonnet-5を使用します - 日付なし、-v1サフィックスなしの固定スナップショットです。基本的な呼び出しには他の変更は不要です。
サンプリングパラメータを削除する
temperature、top_p、top_kを削除します。Opus 4.7以降と同様に、Sonnet 5はこれらをHTTP 400で拒否します。
思考を適応的なままにする
適応的思考はデフォルトで有効です。手動の拡張思考設定を送信しないでください - 明示的な思考は400を返します。代わりにeffortで深さを調整してください。
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-5",
"max_tokens": 4096,
"thinking": { "type": "adaptive" },
"effort": "high",
"messages": [
{ "role": "user", "content": "Refactor this module and add tests." }
]
}'
# NOTE: do NOT send temperature / top_p / top_k -> HTTP 400
from anthropic import Anthropic
client = Anthropic() # reads ANTHROPIC_API_KEY
resp = client.messages.create(
model="claude-sonnet-5",
max_tokens=4096,
thinking={"type": "adaptive"}, # on by default
effort="high", # low | medium | high | xhigh | max
messages=[
{"role": "user", "content": "Explain this stack trace and propose a fix."}
],
# temperature / top_p / top_k omitted -> sending them returns HTTP 400
)
print(resp.content[0].text)
どちらの例も意図的にtemperature、top_p、top_kを省略しています:claude-sonnet-5にこれらのいずれかを送信するとHTTP 400が返ります。適応的思考(thinking={"type":"adaptive"})がデフォルトであり、effortフィールドがリクエストごとにモデルが費やす推論量を制御します。
max_tokensを再調整する
Sonnet 5は新しいトークナイザーを搭載しています。同じテキストがSonnet 4.6より約30%多くのトークンを消費するため、古いコードからコピーした上限やバジェットは問題を引き起こします。
出力上限を引き上げる
Sonnet 4.6のレスポンスに余裕を持って収まっていたmax_tokens値が、今では切り詰められる可能性があります。128Kの出力上限(output-300k-2026-03-24バッチベータヘッダー経由で300K)まで、おおよそ30%多い余裕を持たせてください。
コンテキストバジェットを再確認する
コンテキストウィンドウは1Mトークンです - デフォルトかつ最大で、より小さいバリアントはありません - ただしトークン単位でサイズ設定されていたプロンプトはより高密度に詰め込まれるため、想定するのではなくトークンカウントで再計測してください。
リクエストあたりのコストを再見積もりする
同じテキストで約30%多くのトークンになるため、入力$2/MTok + 出力$10/MTokの導入価格は、同一テキストにおけるSonnet 4.6の$3/$15と比べておおよそコスト中立と読むのが最適です - 一律33%割引ではありません。
導入価格(入力$2/MTok + 出力$10/MTok)は2026年8月31日まで適用されます。標準価格は2026年9月1日から入力$3/MTok + 出力$15/MTokです。キャッシュ読み取りは導入時$0.20 / 標準$0.30、5分キャッシュ書き込みは基本入力の1.25x、1時間キャッシュ書き込みは基本入力の2xです。max_tokensは常に古いカウントではなく新しいトークナイザーに合わせてサイズ設定してください。
effortレベル
effortパラメータは、Sonnet 5がリクエストごとに費やす推論量を調整します。5つのレベルを受け付け、デフォルトはhighです。
| effort | 最適な用途 | レイテンシと出力トークン |
|---|---|---|
| low | 分類、抽出、短いチャット、その他のレイテンシに敏感で範囲が明確な呼び出し。 | 最低レイテンシ、最少の推論トークン。 |
| medium | 日常的な補助や、フルの深さは不要だがもう少し熟考が欲しい軽めのコーディング。 | 中程度のレイテンシとトークン消費。 |
| high デフォルト | ほとんどのエージェント作業とコーディング作業 - スピードと強力な推論を両立するバランスの取れたデフォルト。 | バランス型;推奨される出発点。 |
| xhigh | 難しい多段階デバッグ、アーキテクチャ設計、より深い思考が報われる長期的なエージェント実行。 | より高いレイテンシ、より多くの推論トークン。 |
| max | コストに関係なく最大の深さが欲しい、最も要求の厳しい推論と判断のタスク。 | 最高のレイテンシとトークン消費。 |
highから始め、安価でレイテンシに敏感なトラフィックには下げ、最も難しい問題には上げるだけにしてください。Sonnet 5はより低価格でOpus 4.8の品質に近づきますが、最も難しいコーディング、判断、サイバータスクでは依然としてOpus 4.8が先行します - Sonnet 5のmax effortで足りないときにはOpus 4.8を使ってください。
QCode経由でSonnet 5を使う
QCodeは同じMessages APIをリレーするため、Sonnet 5のコードは変更不要です - 異なるのはベースURLとキーだけです。
同一のAPIサーフェス
同じclaude-sonnet-5モデルID、同じeffortパラメータ、同じ適応的思考。SDKをリレーのベースURLに向けるだけで、既存のコードがそのまま動作します。
1つのキーで多数のモデル
単一のQCodeキーでClaude、Codex、Geminiの各モデルにアクセスできます - 別々のプロバイダーアカウントや請求のやりくりは不要です。
安定した中国からのアクセス
リレーは中国本土から低レイテンシで信頼性の高いアクセスを提供するため、Sonnet 5は越境接続に苦労することなく動作します。
ツールにそのまま利用可能
anthropic SDK、Claude Code、およびMessages APIに対応するあらゆるクライアントで動作します - ベースURLを設定するだけです。
from anthropic import Anthropic
client = Anthropic(
base_url="https://relay.qcode.cc", # QCode relay
api_key="qk-..." # one key for Claude / Codex / Gemini
)
resp = client.messages.create(
model="claude-sonnet-5",
max_tokens=4096,
thinking={"type": "adaptive"},
effort="high",
messages=[{"role": "user", "content": "Ship it."}],
)
よくある質問
Claude Sonnet 5のモデルIDは何ですか?
モデルIDはclaude-sonnet-5です - 日付なし、-v1サフィックスなしの固定スナップショットです。Amazon Bedrockではanthropic.claude-sonnet-5、OpenRouterではスラッグがanthropic/claude-sonnet-5-20260630です。任意のMessages APIリクエストのmodelフィールドにclaude-sonnet-5を渡してください。
Sonnet 5を呼び出すためにコードを変更する必要がありますか?
ほとんど不要です - モデルIDをclaude-sonnet-5に切り替えれば、既存のMessages APIコードはそのまま動作し続けます。確認すべき点は2つ:temperature、top_p、top_kの各フィールドを削除すること(Opus 4.7以降と同様に、Sonnet 5ではHTTP 400を返します)、そして手動の拡張思考設定を送信しないこと - 適応的思考はデフォルトで有効であり、明示的な思考設定は400を返します。また、新しいトークナイザーは同じテキストで約30%多くのトークンを出力するため、max_tokensを再調整してください。
Sonnet 5ではどのeffortレベルを使うべきですか?
デフォルトはhighで、ほとんどのエージェント作業やコーディング作業に適しています。分類、抽出、短いチャットのような安価でレイテンシに敏感な呼び出しにはlowまたはmediumを、最大の深さが欲しい最も難しい多段階推論にはxhighまたはmaxを使ってください。effortはレイテンシと出力トークンを推論の深さと引き換えにするため、highから始めてワークロードごとに調整してください。
QCode経由でClaude Sonnet 5を使えますか?
はい。QCodeはリレーを通じて同じMessages APIサーフェスを公開するため、claude-sonnet-5モデルID、effortパラメータ、適応的思考はそのまま維持されます - 異なるのはベースURLとキーだけです。1つのQCodeキーでClaude、Codex、Geminiの各モデルに対応し、リレーは中国本土から安定した低レイテンシのアクセスを提供します。
関連ガイド
Claude Sonnet 5概要
モデルの完全な紹介:ポジショニング、コンテキストウィンドウ、提供状況、そしてSonnet 5がラインナップのどこに位置するか。
Sonnet 5 対 Sonnet 4.6
何が変わったか - トークナイザー、価格、effort、品質 - そしてなぜSonnet 4.6が引退していないのか。
Claude Sonnet 5の料金
導入価格と標準価格、キャッシュコスト、そして実際のリクエストあたりの支出を左右するトークナイザーの注意点。
Claude Codeのコスト最適化
実践的な戦略 - effortの調整、キャッシュ、モデル選択 - でエージェントコーディングの支出を抑える。