Новинка - выпущено 30 июня 2026

API Claude Sonnet 5: быстрый старт за считанные минуты

Всё необходимое для вызова claude-sonnet-5 из Messages API - ID модели, рабочие примеры на curl и Python, параметр effort, адаптивное мышление и как перенастроить max_tokens под новый токенизатор.

#claude-sonnet-5 #Messages API #параметр effort #адаптивное мышление #релей QCode

Быстрый старт

Sonnet 5 работает как замена «из коробки» в стандартном Messages API. Если вы уже вызываете Opus 4.8 или Sonnet 4.6, вас отделяют три небольших шага.

1

Укажите ID модели

Используйте claude-sonnet-5 - закреплённый снимок без даты и без суффикса -v1. Для базового вызова больше ничего менять не нужно.

2

Уберите параметры сэмплинга

Удалите temperature, top_p и top_k. Sonnet 5 отклоняет их с ошибкой HTTP 400, точно так же как Opus 4.7 и более поздние версии.

3

Оставьте мышление адаптивным

Адаптивное мышление включено по умолчанию. Не отправляйте ручную конфигурацию расширенного мышления - явное указание thinking возвращает 400. Регулируйте глубину через effort.

ID модели Claude API
claude-sonnet-5
ID для Amazon Bedrock
anthropic.claude-sonnet-5
Слаг OpenRouter
anthropic/claude-sonnet-5-20260630
curl - базовый запрос к Messages
curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 4096,
    "thinking": { "type": "adaptive" },
    "effort": "high",
    "messages": [
      { "role": "user", "content": "Refactor this module and add tests." }
    ]
  }'
# NOTE: do NOT send temperature / top_p / top_k -> HTTP 400
Python - SDK anthropic
from anthropic import Anthropic

client = Anthropic()  # reads ANTHROPIC_API_KEY

resp = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},  # on by default
    effort="high",                  # low | medium | high | xhigh | max
    messages=[
        {"role": "user", "content": "Explain this stack trace and propose a fix."}
    ],
    # temperature / top_p / top_k omitted -> sending them returns HTTP 400
)
print(resp.content[0].text)

Оба примера намеренно опускают temperature, top_p и top_k: отправка любого из них в claude-sonnet-5 возвращает HTTP 400. Адаптивное мышление (thinking={"type":"adaptive"}) используется по умолчанию, а поле effort определяет, сколько рассуждений модель тратит на запрос.

Перенастройте свой max_tokens

Sonnet 5 поставляется с новым токенизатором. Тот же текст расходует примерно на 30% больше токенов, чем Sonnet 4.6, поэтому лимиты и бюджеты, скопированные из старого кода, дадут о себе знать.

Повысьте лимит вывода

Значение max_tokens, которое комфортно вмещало ответ Sonnet 4.6, теперь может обрезать вывод. Дайте примерно на 30% больше запаса, вплоть до потолка вывода 128K (300K через бета-заголовок пакетов output-300k-2026-03-24).

Перепроверьте бюджеты контекста

Контекстное окно составляет 1M токенов - это и значение по умолчанию, и максимум, без меньшего варианта - но промпты, размер которых измерялся в токенах, будут упаковываться плотнее, поэтому измеряйте заново с помощью подсчёта токенов, а не полагайтесь на допущения.

Пересчитайте стоимость запроса

Поскольку тот же текст занимает ~30% больше токенов, вводную цену $2/MTok на входе + $10/MTok на выходе лучше воспринимать как примерно нейтральную по стоимости в сравнении с $3/$15 у Sonnet 4.6 на идентичном тексте - а не как фиксированную скидку 33%.

Вводные цены ($2/MTok на входе + $10/MTok на выходе) действуют до 31 августа 2026; стандартные цены составляют $3/MTok на входе + $15/MTok на выходе с 1 сентября 2026. Чтение из кэша - $0.20 вводная / $0.30 стандартная, запись в кэш на 5 минут стоит 1.25x базового входа, а запись в кэш на 1 час - 2x базового входа. Всегда рассчитывайте max_tokens под новый токенизатор, а не по старым подсчётам.

Уровни effort

Параметр effort настраивает, сколько рассуждений Sonnet 5 тратит на запрос. Он принимает пять уровней; значение по умолчанию - high.

effort Лучше всего для Задержка и токены вывода
low Классификация, извлечение, короткий чат и другие чувствительные к задержке, чётко очерченные вызовы. Наименьшая задержка, наименьшее число токенов рассуждений.
medium Повседневная помощь и более лёгкое программирование, где нужно чуть больше обдумывания без полной глубины. Умеренная задержка и расход токенов.
high по умолчанию Большинство агентных и программистских задач - сбалансированное значение по умолчанию, сочетающее скорость с сильными рассуждениями. Сбалансированно; рекомендуемая отправная точка.
xhigh Сложная многошаговая отладка, архитектура и длительные агентные прогоны, где глубокое мышление окупается. Более высокая задержка, больше токенов рассуждений.
max Самые требовательные задачи рассуждения и суждения, где нужна максимальная глубина независимо от стоимости. Наибольшая задержка и расход токенов.

Начинайте с high и снижайте уровень только для дешёвого, чувствительного к задержке трафика или повышайте для самых сложных задач. Sonnet 5 приближается к качеству Opus 4.8 по более низкой цене, но Opus 4.8 по-прежнему лидирует в самых сложных задачах программирования, суждения и кибербезопасности - обращайтесь к нему, когда max effort на Sonnet 5 недостаточно.

Использование Sonnet 5 через QCode

QCode ретранслирует тот же Messages API, поэтому ваш код Sonnet 5 остаётся без изменений - отличаются только базовый URL и ключ.

Идентичная поверхность API

Тот же ID модели claude-sonnet-5, тот же параметр effort, то же адаптивное мышление. Направьте SDK на базовый URL релея, и ваш существующий код просто заработает.

Один ключ, много моделей

Единый ключ QCode открывает доступ к моделям Claude, Codex и Gemini - без жонглирования отдельными аккаунтами провайдеров или биллингом.

Стабильный доступ из Китая

Релей обеспечивает надёжный доступ с низкой задержкой из материкового Китая, поэтому Sonnet 5 работает без борьбы с трансграничным подключением.

Замена «из коробки» для инструментов

Работает с SDK anthropic, Claude Code и любым клиентом, говорящим на Messages API - задайте базовый URL и вперёд.

Python - Sonnet 5 через релей QCode
from anthropic import Anthropic

client = Anthropic(
    base_url="https://relay.qcode.cc",  # QCode relay
    api_key="qk-..."                     # one key for Claude / Codex / Gemini
)

resp = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    effort="high",
    messages=[{"role": "user", "content": "Ship it."}],
)

Часто задаваемые вопросы

Какой ID модели у Claude Sonnet 5?

ID модели - claude-sonnet-5 - закреплённый снимок без даты и без суффикса -v1. На Amazon Bedrock это anthropic.claude-sonnet-5, а на OpenRouter слаг - anthropic/claude-sonnet-5-20260630. Передавайте claude-sonnet-5 в поле model любого запроса к Messages API.

Нужно ли менять код, чтобы вызвать Sonnet 5?

В основном нет - замените ID модели на claude-sonnet-5, и ваш существующий код Messages API продолжит работать. Проверьте два момента: удалите любые поля temperature, top_p или top_k (они возвращают HTTP 400 на Sonnet 5, как и на Opus 4.7+), и не отправляйте ручную конфигурацию расширенного мышления - адаптивное мышление включено по умолчанию, а явная конфигурация thinking возвращает 400. Также перенастройте max_tokens, поскольку новый токенизатор выдаёт примерно на 30% больше токенов для того же текста.

Какой уровень effort использовать с Sonnet 5?

Значение по умолчанию - high, которое подходит для большинства агентных и программистских задач. Используйте low или medium для дешёвых, чувствительных к задержке вызовов вроде классификации, извлечения и короткого чата, а xhigh или max - для самых сложных многошаговых рассуждений, где нужна максимальная глубина. Effort обменивает задержку и токены вывода на глубину рассуждений, поэтому начинайте с high и подстраивайте под каждую нагрузку.

Можно ли использовать Claude Sonnet 5 через QCode?

Да. QCode предоставляет ту же поверхность Messages API через свой релей, поэтому вы сохраняете ID модели claude-sonnet-5, параметр effort и адаптивное мышление без изменений - отличаются только базовый URL и ключ. Один ключ QCode работает с моделями Claude, Codex и Gemini, а релей обеспечивает стабильный доступ с низкой задержкой из материкового Китая.

Начните разработку с Claude Sonnet 5

Получите один ключ для Claude, Codex и Gemini - со стабильным доступом и тем же Messages API, которым вы уже пользуетесь.