llm-jp-3.1 レビュー:NII製国産MoEモデルの日本語実力
結論から言うと、llm-jp-3.1-8x13b-instruct4は「国産の完全オープンモデルで、日本語の指示追従性に本気で取り組んだ」という姿勢が数字に出ているモデルです。日本語MT-Benchでgpt-4-0613を上回ることが確認されており、同規模帯のオープンモデルの中では実力派の一角を担います。コーディングや数学では海外大手モデルに劣る面がありますが、日本語の文章生成・Q&A・人文系タスクを軸に据えるなら、十分に検討に値する選択肢です。
概要
llm-jp-3.1は、国立情報学研究所(NII)が運営する大規模言語モデル研究開発センター(LLMC)の公開する国産オープンLLMシリーズです。2024年9月から続く「LLM-jp-3」シリーズの改良版にあたり、継続事前学習(mid-training)と後処理の改善によって指示追従性を大幅に向上させました。
llm-jp-3.1-8x13b-instruct4はシリーズの旗艦モデルで、MoE(Mixture of Experts)アーキテクチャを採用しています。総パラメータ数73B、推論時のアクティブパラメータ数は22Bです。標準版のコンテキスト長は4,096トークンで、別途32K対応のllm-jp-3.1-8x13b-32K-instruct4も公開されています。
学習面では、llm-jp-corpus v3を基盤とした2.1Tトークンの事前学習済みチェックポイントから出発し、命令-応答ペア約90Bトークンを事前学習データと混合した継続学習(合計400Bトークン)を追加。累計2.5Tトークンの学習量になります。ファインチューニングはSFT(教師あり微調整)とDPO(直接選好最適化)の2段階で実施されています。
ライセンスはApache License 2.0で、商用利用・改変ともに制約なく使えます。
強み
日本語の指示追従性が高い: 日本語MT-Benchでgpt-4-0613を超えるスコアを達成しており、特に人文科学カテゴリで最高スコアを記録しています。日本語の文章生成・要約・Q&Aで安定したアウトプットが期待できます。
前世代からの大幅な改善: シリーズ全体で底上げが確認されています。例として1.8Bモデルの日本語MT-Benchスコアは前世代の4.64から6.30へ大きく向上しており、mid-trainingの効果が明確に表れています。
完全オープンな透明性: 学習データ・コード・モデル重みがすべて公開されており、組み込みの透明性が求められる場面(行政・医療・法務の実証実験など)で価値を発揮します。
MoEによる推論効率: 総パラメータ73Bながら推論時のアクティブパラメータは22Bで動作するため、同規模帯のdenseモデルと比較してメモリ効率が良い点もメリットです。
弱み・注意点
コーディング・数学は苦手: NII自身のリリースノートでも言及されているとおり、コーディングタスクや数学推論では、OpenAI系モデルやQwenベースのモデルと比較して性能が低い傾向があります。プログラミング支援や数値解析が主目的なら他モデルの検討を推奨します。
標準版のコンテキスト長は4K: 長文書処理が必要な場合は32K対応バリアントが別途公開されていますが、FastMetal上での利用可否はモデルカタログでご確認ください。
日本語・英語以外では限界がある: 開発の主軸が日本語と英語のため、その他の言語では想定外の挙動が出る可能性があります。
最新フロンティアとは差がある: GPT-4oやClaude 3.7 Sonnetなどの最新モデルと総合性能で比較すると開きがあります。品質最優先の用途では、フロンティアモデルとの比較検討も合わせて行うことをおすすめします。
他モデルとの比較
| モデル | 規模(総B / アクティブ) | 日本語MT-Bench | ライセンス | 特徴 |
|---|---|---|---|---|
| llm-jp-3.1-8x13b-instruct4 | 73B / 22B(MoE) | gpt-4-0613超え(詳細スコア非公開) | Apache 2.0 | NII製完全国産、日本語特化 |
| llm-jp-3.1-13b-instruct4 | 13B / 13B | 7.37 | Apache 2.0 | 同シリーズ中型、Qwen2.5-14B超え |
| Qwen2.5-14B-Instruct | 14B / 14B | llm-jp-3.1-13bに劣る | Apache 2.0 | 多言語対応、コーディングに強い |
| Qwen3 Swallow 32B | 32B / 32B | 日本語タスクで高水準(Swallow LB参照) | Apache 2.0 | 東工大Swallow×Qwen3、数学・コーディング強 |
| ELYZA-Shortcut-1.0-Qwen-32B | 32B / 32B | 非公開 | Apache 2.0 | Qwen2.5ベース、日本語特化チューニング |
注: 評価設定・実施時期が異なるため、表内の数値はあくまで参考値です。同一条件での直接比較ではありません。
コスト感
llm-jp-3.1-8x13b-instruct4はオープンモデルであるため、クローズドのフロンティアモデルと比べてトークン単価は低めに設定されています。FastMetalでは日本円・円建て前払いでクレジットを購入し、使った分だけ消費するシンプルな仕組みです。具体的な単価は料金ページでご確認ください。
日本語での使い勝手
llm-jp-3.1の設計思想の核心は「日本語での指示追従性」です。
公式評価では日本語MT-Benchでgpt-4-0613超えを達成しており、特に人文科学カテゴリで最高スコアを記録しています。ビジネス文書・議事録要約・論説文生成・日本語Q&Aといったタスクで実用水準にあることを示す結果です。
mid-trainingによって「指示の意図をきちんと汲んだ返答が返ってくる」ようになっており、チャット形式での対話や、役割・制約を付与したシステムプロンプトとの相性が前世代より改善されています。
一方、コーディングや数学タスクはNII自身が課題として認識している領域です。また、英語タスクで日本語と同等の性能が出るとは限らない点も考慮が必要です。用途を日本語中心のテキスト処理に絞ることで、このモデルの強みが最大限に発揮されます。
向いている用途・向かない用途
-
向いている
- 日本語の文章生成・要約・Q&A
- ビジネス文書・議事録の整形・要約
- 日本語チャットボット・カスタマーサポートの試作
- 国産・完全オープンモデルが必要な行政・医療・法務の実証実験
- コストを抑えつつ日本語タスクの自動化を試したいケース
-
向かない
- コード生成・コードレビューが主目的の用途
- 数学的推論・数値計算がヘビーなタスク
- 日本語・英語以外の多言語対応が必要な用途
- 最新フロンティアモデルとの品質同等性が求められる本番環境
よくある質問
Q. コンテキスト長はどれくらいですか?
A. 標準版(llm-jp-3.1-8x13b-instruct4)は4,096トークンです。より長い文書を扱いたい場合は、32K対応の別バリアント(llm-jp-3.1-8x13b-32K-instruct4)がNIIから公開されています。FastMetal上での利用可否はモデルカタログでご確認ください。
Q. 商用利用はできますか? A. はい。Apache License 2.0で公開されているため、商用利用・改変・再配布ともに原則自由です。ライセンス本文を確認の上、ご自身の用途での適合性をご判断ください。
Q. フロンティアモデル(GPT-4o、Claude 3.7など)と比べてどうですか? A. 日本語の一般的な文章生成や指示追従では健闘していますが、総合性能では最新フロンティアに差があります。コスト削減・国産モデルの採用・完全オープンな透明性が優先される場面に向いており、品質最優先の用途ではフロンティアモデルとの比較検討をおすすめします。
FastMetal で試す
curl https://api.fastmetal.ai/v1/chat/completions \
-H "Authorization: Bearer $FASTMETAL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "llm-jp-3.1-8x13b-instruct4",
"messages": [{"role": "user", "content": "日本語で自己紹介してください"}]
}'
FastMetalなら円建て前払いで今すぐ試せます。料金は料金ページ、対応モデルの一覧はモデルカタログでご確認ください。