ブログに戻る
コラム

日本語はトークンを食う:API料金を日本語で最適化する

FastMetal

LLM APIはトークン単位で課金されます。そして見落とされがちですが、同じ内容でも日本語は英語の約2〜3倍のトークンを消費します。これは海外では "language tax(言語税)" とも呼ばれ、非英語話者が同じ機能に対して構造的に多くのコストを払ってしまう問題として議論されています。

この記事では、なぜ日本語がトークンを食うのか、その仕組みを押さえたうえで、料金を抑える実践的な工夫を解説します。

日本語は英語の何倍のトークンを使うのか

トークンとは、モデルが文章を処理するために分割する単位です。英語はおおむね「単語に近い単位」で区切られますが、日本語は1文字〜数文字ずつの細かいサブワードに分割されやすく、同じ意味でもトークン数が膨らみます。

内容トークン数の目安
"Hello, world"(英語)約3トークン
「こんにちは、世界」(日本語)約10〜12トークン

※ あくまで目安です。正確な数は後述するとおりモデルのトークナイザによって変わります。

ある再現可能なベンチマークでは、同じ意味の文章で日本語は英語の1.5〜3倍程度、言語によっては5倍以上のトークンを要するという結果も報告されています。つまり日本語というだけで、英語と同じ処理がコスト高になりやすいのです。

なぜ「言語税」が生まれるのか

原因はモデルのトークナイザにあります。多くのLLMは BPE(Byte Pair Encoding)系のトークナイザを使い、その語彙は英語中心のデータで学習されています。英語に最適化された語彙では、日本語の文字列を効率よくまとめられず、結果として細かいトークンに分割されてしまいます。

これはタスクが難しいからではなく、インフラ側に英語への偏りが組み込まれていることの表れです。だからこそ、利用する側の工夫で改善できる余地があります。

トークナイザの世代でコストは変わる

重要なのは、トークナイザは一つではないという点です。

  • 同じOpenAIでも、GPT-4o世代の o200k_base は旧世代の cl100k_base より日本語を効率的に扱います。新しい世代ほど、同じ日本語をより少ないトークンで表現できる傾向があります。
  • プロバイダ(OpenAI / Anthropic / その他)ごとにトークナイザが異なるため、まったく同じ日本語でも、モデルによって消費トークン数=コストが変わります

つまりモデル選びそのものが、日本語のコストを左右するレバーになります。「なんとなく選ぶ」のではなく「測って選ぶ」ことが効いてきます。

日本語でコストを抑える6つの実践

  1. まず自分のトークン比率を測る — 代表的なプロンプトで実際のトークン数を計測します。推測ではなく実測することで、どこにコストがかかっているかが見えます。
  2. トークナイザの新しいモデルを選ぶ — 同等の品質なら、日本語を効率的に扱う新しい世代のモデルのほうがコストを抑えられます。
  3. 軽いタスクは軽いモデルへ — 要約・分類・抽出といった定型処理は、高速・低コストなモデルに任せます。
  4. プロンプトを簡潔にする — 冗長な敬語や前置き、繰り返しの指示を削り、要点に絞ります。日本語は1文字あたりのトークンが重いぶん、削減効果も大きくなります。
  5. 出力の長さを制限する — 「200字以内で」など上限を指定し、不要に長い応答を防ぎます。課金は入力+出力の両方にかかるため、出力の管理は効果的です。
  6. 不要な文脈を渡さない/キャッシュを活用する — 毎回すべての会話履歴を送らず、必要な部分だけを渡します。同じ前提を繰り返し送る場合は、キャッシュの仕組みも検討します。

円建てなら「二重の税」を避けられる

日本のユーザーがドル建てのAPIを使うと、言語税に加えて為替の影響も上乗せされます。円安が進めば、同じトークン数でも実質コストはさらに膨らみ、月末まで請求額が読めません。いわば「言語税」と「為替」の二重の負担です。

FastMetalは円建てのプリペイドなので、為替の上乗せがなく、コストを円のまま把握できます。チャージした残高を超える請求は発生せず、残高が少なくなればアラートメールも届くため、日本語特有の読みにくいコストでも上限を自分でコントロールできます。

よくある質問

Q. 日本語は必ず英語より高くなりますか? 同じ内容なら高くなる傾向は確かにありますが、モデル(トークナイザの世代)やプロンプトの書き方で差は縮められます。「日本語だから仕方ない」と諦める必要はありません。

Q. どのモデルが日本語に効率的ですか? 新しい世代のトークナイザを使うモデルほど効率的な傾向があります。ただし最適解は用途によって異なるため、代表的なプロンプトで実測して比較するのが確実です。

Q. 絵文字や特殊記号はトークンを多く使いますか? はい。絵文字や一部の記号は複数トークンに分割されることがあり、想定よりコストがかさむ場合があります。不要な装飾は控えめにするのが無難です。


日本語のコストは「仕組みを知って、測って、モデルとプロンプトで最適化する」ことで着実に下げられます。モデルごとの単価は料金ページ、用途に応じた使い分けはモデルカタログを参考に、日本語のコストを上手に最適化してください。