コラム

LLM API 料金比較ガイド：フロンティアとオープン、どれを選ぶか

Q: LLM API の料金は何で決まりますか？

多くはトークン課金で、入力と出力それぞれに単価がかかります。出力は入力より割高（目安で3〜8倍）なので、生成量の多いタスクほど出力側がコストを左右します。

Q: いちばん単価の安いモデルを選べばコストは下がりますか？

必ずしもそうとは限りません。単価が最安でも、品質不足でリトライが増えれば、タスク単位の実コストは上がります。トークン当たりではなく仕事当たりで考えるのがコツです。

2026/5/15FastMetal

LLM API の単価は、2025 年から 2026 年にかけて全体で大きく下がりました。一部の集計では平均で 8 割ほど下落したとも言われます（CloudZero ほか各社の料金比較より）。選択肢は増え、価格も性能もバラバラです。

ただ、ここで多くの人がつまずきます。「単価がいちばん安いモデル」が「タスク単位でいちばん安いモデル」とは限らないからです。この記事では、料金の仕組みから用途別の選び方までを整理します。なお具体的な金額はあくまで目安で、最新の単価は各プロバイダーと料金ページでご確認ください。

LLM API 料金比較の基礎：入力と出力で単価が違う

ほとんどの LLM API はトークン課金です。送ったプロンプト（入力）と、生成された応答（出力）に、それぞれ別の単価がかかります。

見落としがちなのが、出力トークンは入力より割高だという点です。複数の料金分析によると、出力は入力の概ね 3〜8 倍、中央値でおよそ 4 倍とされています（CodeAnt ほか）。生成は 1 トークンずつ順番に計算するため、並列で処理できる入力より重い、というのが理由です。

出力トークンという「隠れたコスト」

つまり料金を見積もるとき、入力単価ばかり見ても本当のコストは読めません。長文を生成するタスクや、推論ステップを多く吐くモデルでは、コストの大半が出力側で発生します。

実務的な示唆はシンプルです。入力単価を値切るより、出力の長さを抑えるほうが効きます。 「簡潔に答えて」と指示する、不要な前置きを削る、JSON だけ返させる——こうした工夫が、そのまま請求額に効いてきます。加えて、プロンプトキャッシュ（一部プロバイダーで最大 9 割引）やバッチ処理（5 割引）を組み合わせると、実質単価はさらに下げられます（CodeAnt）。

フロンティアとオープンモデルの価格差

選択肢は、大きく 2 つに分かれます。

フロンティア（クローズド）モデル — Claude など。品質が高い分、単価も高め。難しいタスク向け。
オープンモデル — GLM、Qwen、MiniMax など。コストを抑えやすく、コーディングや大量処理に強いものも多い。

この 2 つの価格差は、想像以上に大きいです。あるベンチマーク集計では、SWE-bench で 80% 台に届くモデルの出力単価が、オープンモデルからフロンティア最上位までおよそ一桁の開きになると報告されています（Atlas Cloud）。しかも、最後の数ポイントの精度を積み増すコストは跳ね上がりがちです。「あと少しの品質」に何倍払うか——これが選定の肝になります。

用途で選ぶ：意思決定フレームワーク

そこで効くのが、単価ではなくタスクから逆算する考え方です。最安単価のモデルでも、失敗してリトライが増えれば、結局は割高になります（Inference.net）。判断軸は次の 3 つです。

難易度 — 最難関の推論やコーディングはフロンティア、定型処理はオープン。
量 — 大量に回すバッチ処理ほど、単価差が効いてくる。
言語 — 日本語中心なら日本語に強いモデルも候補に。

モデルクラス	相対コスト（目安）	向いている用途
フロンティア上位（Opus 級）	高	最難関の推論・コーディング・長文理解
フロンティア中位（Sonnet 級）	中〜高	複雑なタスクのバランス型
軽量フロンティア（Haiku 級）	中	高速・低コストで一定品質が欲しい場面
オープン大型（GLM・MiniMax 級）	低〜中	コーディング・大量処理
コーディング特化（Qwen Coder 級）	低	コード生成・補完
日本語特化（llm-jp 級）	低	日本語中心の処理

一つに絞らず、タスクごとに使い分けるのが、結局はもっともコスト効率に優れます。

よくある質問

Q. LLM API の料金は何で決まりますか？ A. 多くはトークン課金で、入力と出力それぞれに単価がかかります。出力は入力より割高（目安で 3〜8 倍）なので、生成量の多いタスクほど出力側がコストを左右します。

Q. いちばん単価の安いモデルを選べばコストは下がりますか？ A. 必ずしもそうとは限りません。単価が最安でも、品質不足でリトライが増えれば、タスク単位の実コストは上がります。「トークン当たり」ではなく「仕事当たり」で考えるのがコツです。

Q. フロンティアとオープン、どちらを使うべきですか？ A. タスク次第です。最難関の推論やコーディングはフロンティアが有利な場面が多く、定型処理や大量バッチはオープンモデルで十分なことが多いです。両方を試して使い分けるのが現実的です。

FastMetal なら同条件で比較できる

「結局どれが自分の用途に合うか」は、実際に同じプロンプトで試すのが一番です。FastMetal は、フロンティアからオープンまで複数のモデルを一つの API キーでまとめて使えます。

curl https://api.fastmetal.ai/v1/chat/completions \
  -H "Authorization: Bearer $FASTMETAL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "anthropic-claude-haiku-4-5",
    "messages": [{"role": "user", "content": "この記事を3行で要約して"}]
  }'

model を glm-5 や minimax-m2.7、Qwen3-Coder-480B-A35B-Instruct-FP8 に変えるだけで切り替わるので、同じ入力で料金と品質を実際に比べられます。料金は円建てプリペイドで、使った分だけ消費する上限付き。想定外の請求は起きません。

単価は料金ページ、扱えるモデルの一覧はモデルカタログ、導入手順はドキュメントをご覧ください。