Claude Opus 4.6 レビュー:フラッグシップの使いどころと、Sonnet との境目
結論から言うと、Claude Opus 4.6(anthropic-claude-opus-4-6)は「難しいタスクで品質を最優先したい」場面に向いたフラッグシップです。ただし 2026 年 2 月 5 日に登場した本モデルは、弟分の Sonnet 4.6 との差が過去最小まで縮まったのも事実。ここぞという処理に絞って使い、日常は Sonnet / Haiku に任せるのが、品質とコストを両立させる賢い使い方です。
概要
Opus は Claude シリーズの最上位クラスで、複雑な推論・長い文脈の読解・緻密なコーディングで力を発揮します。Anthropic によると 4.6 では、深さを自動調整する適応的思考(adaptive thinking)が導入され、ベータながら最大 100 万トークンの文脈と 128K トークンの出力に対応しました。複数の Claude を並列で走らせる Agent Teams は Opus 限定の目玉機能です。
強み
- エージェント・コーディングが最高水準 — Anthropic の公表値で SWE-bench Verified 80.8%、Terminal-Bench 2.0 65.4%、コンピュータ操作の OSWorld 72.7% と、いずれも同社の自己ベストを更新しています。
- 思考の深さを自動調整 — low / medium / high / max の 4 段階(既定は high)で、Claude が課題の難易度に応じて推論量を加減します。Anthropic によれば low では出力トークンを約 40% 削減できるため、軽い処理ではコストも抑えられます。
- 超長文に強い — 100 万トークン文脈(ベータ)により、大規模なコードベースや長大な資料を一度に読ませた緻密な処理が可能です。
弱み・注意点(コスト含む)
- 単価が高い — Opus は Sonnet より大幅に高単価です。Anthropic の公開価格でも Opus は Sonnet の数倍にあたり、全リクエストを Opus で回すと費用がかさみます。
- Sonnet との差が小さい — 後述のとおり主要ベンチでの差はわずかで、多くの実務では Opus を選ぶ必然性が薄れています。
- 日本語専用の公表スコアはない — Anthropic は日本語単独のベンチ値を出していません(後述)。
他モデルとの比較(vs Sonnet 4.6)
各社レビューによると、SWE-bench Verified での両者の差は 1.2 ポイントと、Claude 史上もっとも小さい開きです。Sonnet 4.6 は Opus 4.6 のコーディング性能の 97〜99% 程度を、はるかに低いコストで出すと報告されています。
| 項目 | Opus 4.6 | Sonnet 4.6 |
|---|---|---|
| SWE-bench Verified | 80.8% | 79.6% |
| 相対コスト | 高い(上位クラス) | 中位・割安 |
| Agent Teams | あり(Opus 限定) | なし |
| 向く用途 | 高リスクな改修・大規模移行・セキュリティ審査 | 日常の修正・機能追加・定型リファクタ |
※数値は Anthropic および各社レビューの公表値です。
コスト感
Opus は高品質な分、単価も上位クラスです。なお Anthropic によれば 4.6 は前世代の Opus 4.5 と同じ価格で性能を引き上げており、値上げはありません。とはいえ Sonnet との価格差は大きいままなので、用途に応じた使い分けが前提です。FastMetal での具体的な単価は料金ページでご確認ください。円建てのプリペイドなので、残高の範囲でのみ課金されます。
日本語での使い勝手
体感では、日本語の読解・生成ともに高品質で、込み入った指示や長文を踏まえた緻密な応答でも崩れにくい印象です。ただし正直に言えば、Anthropic は日本語単独のベンチマーク値を公表しておらず、ここで断定的な「日本語スコア」をお見せすることはできません。なお多言語コーディングの SWE-bench Multilingual は 77.83% と報告されています。日本語の実務では、まず Sonnet 4.6 で試し、品質が足りない難所だけ Opus に上げる進め方が無難です。
向いている用途・向かない用途
- 向いている — 高リスクな大規模リファクタ、大きめのコード移行、セキュリティ審査、長文資料を踏まえた緻密な分析や意思決定の補助
- 向かない(もったいない) — 要約・分類など軽量タスク(→ Haiku 4.5)、日常の修正・機能追加などバランス重視の実務(→ Sonnet 4.6)
よくある質問
Q. Opus 4.6 と Sonnet 4.6、どちらを選ぶべき? A. 多くの実務は Sonnet 4.6 で十分です。SWE-bench での差は 1.2 ポイントと小さく、Sonnet は Opus の 97〜99% の性能を割安に出すと報告されています。高リスクな改修や大規模移行など「失敗が許されない難所」だけ Opus に上げるのがおすすめです。
Q. 100 万トークンの文脈は誰でも使える? A. 1M トークン文脈はベータ提供で、出力は最大 128K トークンです。大規模コードベースや長大な資料をまとめて読ませたい場合に有効ですが、長い文脈ほどコストも増える点には注意してください。
Q. 適応的思考(adaptive thinking)とは? A. 課題の難易度に応じて Claude が推論量を自動で加減する仕組みです。low / medium / high / max の 4 段階があり、既定は high。Anthropic によれば low では出力トークンを約 40% 削減できます。
試してみる
curl https://api.fastmetal.ai/v1/chat/completions \
-H "Authorization: Bearer $FASTMETAL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "anthropic-claude-opus-4-6",
"messages": [{"role": "user", "content": "次の仕様を満たす設計案を3つ提案して:..."}]
}'
難しいタスクは Opus、日常は Sonnet / Haiku ——この使い分けが、品質とコストの両立につながります。FastMetal なら 1 つの API キーで切り替えられます。対応モデルはモデルカタログ、単価は料金ページでご確認ください。