Claude Opus 4.8
更锐利的 Agentic 判断,代码缺陷 4× 更少
Agentic 任务判断更锐利、更可靠,引入代码缺陷的概率比 Opus 4.7 低 4 倍,Online-Mind2Web 84%,原生 1M context,与 Opus 4.7 完全同价($5/$25 per MTok)
核心亮点
引入代码缺陷的概率比上一代 Opus 4.7 低 4 倍,把'必须逐行复查'的代码活变成放手让它跑
computer-use / 浏览器 agent 任务成功率达 84%,agentic 执行的代际可靠性提升
在 agentic 任务上判断更准、更可靠,CursorBench 在每个 effort 档位均超越此前所有 Opus 模型
$5 input / $25 output per MTok,和 4.7 完全一致,没有涨价
编程可靠性飞跃:从能写到敢放手
从长程自主任务到复杂工具调用,Opus 4.8 把焦点从'能不能写'转向'写得够不够稳'——代码缺陷 4× 更少
代码缺陷概率 4× 更低
在编码任务中引入缺陷的概率比上一代 Opus 4.7 低 4 倍,生成与重构的稳定性显著提升,复查成本大幅下降
CursorBench:全 effort 档位超越
在 CursorBench 上,Opus 4.8 在每一个 effort 档位都超越此前所有 Opus 模型,编辑器内 agent 工作流更可靠
Super-Agent:唯一全程通关
在 Super-Agent 基准上,Opus 4.8 是唯一能端到端完成每一个测试用例的模型,长程多步任务不半途卡死
更锐利的 Agentic 判断
在 agentic 任务里判断更准——何时调用工具、何时收尾、何时换方案,决策更可靠,减少无效迭代
Online-Mind2Web 84%
在 Online-Mind2Web 上 computer-use / 浏览器 agent 任务成功率达 84%,自动化真实网页操作更可靠
⭐ 更诚实,少幻觉
Opus 4.8 在诚实度上进一步改进,更愿意承认不确定、不编造结果,长任务里更值得信任
多模态与长程能力
Opus 4.8 保持强多模态能力,并在 long-context 处理上进一步改进,配合原生 1M context 适合大型代码库与长文档场景
Computer-use Agent 读图执行
强多模态 + 更锐利判断,让 agent 能读懂密集截图与 UI 细节并据此可靠操作(Online-Mind2Web 84%)
Legal Agent Benchmark 破 10%
在 Legal Agent Benchmark 上取得最高分,是首个在全通过标准上突破 10% 的模型,复杂专业领域 agent 的里程碑
长上下文稳定性提升
long-context 处理改进,原生 1M context 下整库分析、跨文件追踪、长文档摘要保持连贯不丢线
复杂图表与文档理解
强多模态支撑多层嵌套图表、表格、扫描件 PDF 的文本与结构抽取,直接送图到 API 即可
随版本延续的能力
Claude Code Fast Mode 默认
Opus 4.8 已成为 Claude Code Fast Mode 的默认模型(此前为 Opus 4.7),开箱即享更锐利的 agentic 判断
/ultrareview 深度代码审查
Claude Code 命令延续,独立 review 会话把改动从头到尾过一遍,配合 4× 更少缺陷进一步压低线上风险
xhigh effort 档位
high 与 max 之间的 xhigh 档位延续,更细粒度地平衡推理深度与 latency
Adaptive thinking
adaptive thinking 延续,配合 effort 参数让 Claude 在长任务里自适应分配推理深度
迁移指南(⭐重点)
从 Opus 4.7 升到 Opus 4.8 是直接替换(model ID 改为 claude-opus-4-8),无需改其他配置,但有几点值得提前确认
1. 一行替换即可升级
把 model ID 从 claude-opus-4-7 改为 claude-opus-4-8 即可,drop-in 替换,无需改其他配置;如需超长上下文可用 claude-opus-4-8[1m] 变体
2. 定价不变,重估预算无需调整
$5 input / $25 output per MTok 与 4.7 完全一致;Fast mode 为 $10 input / $50 output per MTok,可直接沿用既有成本模型
3. Thinking API 用 adaptive
thinking={type:"enabled", budget_tokens:N} 已 deprecated,推荐 thinking={type:"adaptive"} 配合 effort 参数(与 4.7 一致)
4. 复查可放松,但别裸跑
代码缺陷 4× 更少让人工复查负担显著下降,但生产改动仍建议保留 /ultrareview 或测试 gate 兜底
client.messages.create(
model="claude-opus-4-7",
thinking={"type": "enabled", "budget_tokens": 10000}
)
client.messages.create(
model="claude-opus-4-8",
thinking={"type": "adaptive"},
effort="xhigh" # available since 4.7
)
与 GPT-5.4 / Gemini 3.1 Pro 对比
同价位旗舰模型横评(Opus 列基于 Anthropic 官方公布的 4.8 能力定位)
| 指标 | Opus 4.8 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| Agentic 编程可靠性 | 代码缺陷 4× 更少 | 参考 OpenAI | 参考 Google |
| Input $ / MTok | $5 | 参考 OpenAI | 参考 Google |
| Output $ / MTok | $25 | 参考 OpenAI | 参考 Google |
| Context window | 原生 1M | 272K / 1M beta | 1M |
| Computer-use 任务 | Online-Mind2Web 84% | — | — |
QCode.cc 如何帮你用上 Opus 4.8
国内稳定 开发者平台,官方同价,即开即用
官方同价 $5/$25
QCode.cc 按 Anthropic 官方定价计费,不做任何倍率加价
支持 effort / thinking 参数
完整透传 xhigh effort、adaptive thinking 等 Opus 4.8 参数
一键切换 4.7 / 4.8
model ID 从 claude-opus-4-7 改到 claude-opus-4-8 即可,无需改其他配置;另提供 claude-opus-4-8[1m] 超长上下文变体
国内直连,稳定低延迟
多节点智能路由 + 熔断兜底,避免官方 API 在国内访问的不稳定性