Сравнение трёх вендоров · максимально осторожные формулировки

Claude Sonnet 5 против GPT-5.6 и Gemini 3.1 Pro

Anthropic, OpenAI и Google никогда не проводили общий бенчмарк — поэтому единой цифры «победителя» не существует. Вот что действительно сопоставимо (цена, контекст, доступность) и что нет (баллы лидербордов), с честно оставленными пустыми ячейками бенчмарков.

#Claude Sonnet 5 #GPT-5.6 #Gemini 3.1 Pro #Честное сравнение

Вердикт одной строкой

Между этими вендорами нет общего бенчмарка — сравнивайте по цене, ценности и доступности, а не по одной цифре.

Anthropic не опубликовала точных значений бенчмарков для Claude Sonnet 5; сказано лишь качественно, что производительность «близка к Opus 4.8». OpenAI и Google запускают собственные тестовые окружения в собственные даты. Поэтому полезные оси решения — это стоимость, окно контекста, лимиты вывода и то, где каждая модель действительно общедоступна. Claude Sonnet 5 — это модель среднего уровня для агентного программирования, которая приближается к Opus 4.8 по более низкой цене, при этом Opus 4.8 по-прежнему лидирует в самых сложных задачах программирования, суждения и кибербезопасности. Протестируйте все три на своей нагрузке, прежде чем решать.

Что сопоставимо, а что НЕТ

✅ Что МОЖНО сравнить

Твёрдые, опубликованные факты выстраиваются в ряд у всех вендоров: прайс за миллион токенов, размер окна контекста, максимальная длина вывода, дата обучения и — что особенно важно — реальная доступность (какая модель общедоступна на какой платформе и какие уровни всё ещё в превью). Именно эти цифры реально меняют ваш счёт и план интеграции, и они — честная основа для решения.

🚫 Что НЕЛЬЗЯ сравнить

Единой цифры «лучшей модели» здесь не существует. Anthropic не публиковала для Sonnet 5 показателей SWE-bench, Terminal-Bench или OSWorld, и никакой межвендорной оценки на идентичных окружениях, промптах и снапшотах не проводилось. Любая таблица, где Sonnet 5, GPT-5.6 и Gemini стоят рядом с точными процентами, сшита из сторонних оценок разных дат — воспринимайте эти цифры как ориентировочные, но никогда как авторитетные.

Характеристики и доступность с первого взгляда

Проверенные характеристики там, где вендоры их опубликовали; строка бенчмарков намеренно оставлена пустой.

Атрибут Claude Sonnet 5 GPT-5.6 Gemini 3.1 Pro
Вендор и позиционированиеAnthropic · средний уровень, лучший баланс скорости/интеллектаOpenAI · флагманская линейкаGoogle · флагманская линейка
Окно контекста1M токенов (по умолчанию = максимум)Зависит от уровня — см. документацию OpenAIУказано вендором — см. документацию Google Vertex
Максимальный вывод128K (до 300K через бета Batches)Указано вендоромУказано вендором
Цена (ввод / вывод за MTok)$2 / $10 вводная (→ $3 / $15 с 1 сентября 2026)Зависит от уровня; топовые уровни не общедоступны широкоСм. цены Google (регион/уровень)
Дата обученияянварь 2026Указано вендоромУказано вендором
Доступность / статус GAGA — по умолчанию на Free и Pro; API, Bedrock, Vertex AI, Foundry, Copilot, OpenRouterПостепенный выпуск; топовые уровни (напр. Sol Ultra) в ограниченном превьюЗависит от региона и платформы
Публичный бенчмарк (SWE-bench / Terminal-Bench)— не опубликован вендором— нет общего окружения— нет общего окружения
Лучше всего подходит дляАгентное программирование по цене среднего уровня; качество, близкое к OpusТестируйте на своём наборе задачТестируйте на своём наборе задач

Характеристики и цены Claude Sonnet 5 по anthropic.com/news/claude-sonnet-5 и документации platform.claude.com (вводная цена $2/$10 ввод/вывод по 31 августа 2026, затем $3/$15; новый токенизатор использует примерно на ~30% больше токенов на том же тексте, поэтому вводная цена примерно нейтральна по стоимости относительно $3/$15 у Sonnet 4.6). Ячейки GPT-5.6 и Gemini — это ориентировочные указатели на собственную документацию каждого вендора, а не проверенные QCode значения. Ни одна цифра бенчмарка здесь не опубликована Anthropic.

Две оговорки, которые ломают большинство сравнений в сети

🔮 Топовые уровни GPT-5.6 — это ограниченное превью, а не GA

Самые разрекламированные уровни GPT-5.6 — продвигаемые под названиями вроде Sol Ultra — по сообщениям находятся в ограниченном превью, а не в общей доступности, и доступ различается в зависимости от плана и региона. Сравнивать уровень, доступный только в превью, с общедоступной моделью — это сравнение несопоставимого: возможно, вы даже не сможете вызвать тот уровень, на котором прогонялся бенчмарк. Всегда уточняйте свой реальный доступ к уровню GPT-5.6 у вендора, прежде чем строить на нём планы.

📅 Большинство таблиц «Sonnet против Gemini» — эпохи Sonnet 4.6

Claude Sonnet 5 вышла 2026-06-30, поэтому подавляющее большинство циркулирующих в сети сравнительных таблиц «Sonnet против Gemini» строились против Claude Sonnet 4.6 и так и не обновлялись. Они несут старые цены, старые лимиты контекста и старые снапшоты. Обратите внимание, что Sonnet 4.6 (claude-sonnet-4-6) по-прежнему активна — не выведена из эксплуатации, предварительный вывод не ранее 17 февраля 2027 — при этом Sonnet 5 является рекомендуемым преемником и новым значением по умолчанию. Если в таблице не сказано «Sonnet 5», считайте её устаревшей.

Используйте все три по одному ключу QCode

Вместо того чтобы выбирать победителя по несуществующим цифрам, устройте собственное сравнение. Единый API-ключ QCode позволяет направлять запросы к Claude Sonnet 5 для агентного программирования и к OpenAI-совместимой линейке для GPT-5.x, так что вы можете провести A/B на одной и той же задаче и судить по реальному выводу, задержке и стоимости.

Claude Code (Claude Sonnet 5)
export ANTHROPIC_BASE_URL="https://api.qcode.cc"
export ANTHROPIC_AUTH_TOKEN="$QCODE_KEY"
export ANTHROPIC_MODEL="claude-sonnet-5"
claude
OpenAI Codex CLI (GPT-5.x)
npm install -g @openai/codex
# add QCode profile in ~/.codex/config.toml
codex --profile qcode

Направьте Claude Code на api.qcode.cc с моделью claude-sonnet-5 и добавьте профиль QCode в Codex CLI для GPT-5.x. Затем прогоните идентичную задачу через каждую и сравните на собственном репозитории — единственный бенчмарк, который действительно важен для вашего решения. Доступ к Gemini зависит от вашего плана и региона; уточните текущую доступность у вендора.

Часто задаваемые вопросы

Какая из этих трёх лучше для программирования?

Нет общего, опубликованного вендорами бенчмарка между Anthropic, OpenAI и Google, поэтому ни одну модель нельзя короновать «лучшей для программирования» по официальным цифрам. Anthropic позиционирует Claude Sonnet 5 как модель среднего уровня для агентного программирования, качество которой приближается к Opus 4.8 по более низкой цене; Opus 4.8 по-прежнему лидирует в самых сложных задачах программирования и суждения. Честный подход — протестировать все три на своём репозитории и оценивать по своему набору задач, задержке и стоимости, а не по лидерборду.

Claude Sonnet 5 лучше, чем GPT-5.6?

Никто не может сказать этого по опубликованным данным. Anthropic не выпускала точных значений бенчмарков для Sonnet 5, и нет прямого сопоставимого сравнения, которое провели бы оба вендора. Sonnet 5 — это модель среднего уровня по цене $2/MTok за ввод и $10/MTok за вывод (вводная, по 31 августа 2026; затем $3/$15). Любое утверждение «Sonnet 5 обходит GPT-5.6», которое вы видите в сети, — это сторонняя оценка, а не результат вендора.

Можно ли сравнить их баллы SWE-bench?

Ненадёжно. Anthropic не публиковала точного значения SWE-bench, Terminal-Bench или OSWorld для Claude Sonnet 5 — только качественное утверждение, что её производительность «близка к Opus 4.8». Межвендорные таблицы SWE-bench обычно смешивают разные окружения, даты и снапшоты моделей, поэтому они не сопоставимы напрямую. Воспринимайте любую цифру, которую видите, как стороннюю оценку, а не как значение, опубликованное Anthropic.

GPT-5.6 общедоступна?

Доступность неравномерна. Топовые уровни GPT-5.6 (маркетинговые названия вроде Sol Ultra) по сообщениям находятся в ограниченном превью, а не в общей доступности, и доступ различается в зависимости от плана и региона. В отличие от этого Claude Sonnet 5 общедоступна: она является моделью по умолчанию на планах Free и Pro и доступна через Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, GitHub Copilot и OpenRouter. Всегда подтверждайте доступ к уровню GPT-5.6 у вендора, прежде чем брать на него обязательства.

Устройте собственное сравнение на QCode

Один ключ, реальные задачи, честные результаты — решайте по своим цифрам, а не по чужому лидерборду.