215件のモデル
Claude 3.5 Haiku
anthropic/claude-3.5-haikuClaude 3.5 Haikuは、速度、コーディング精度、ツール使用の強化された機能を備えています。リアルタイムアプリケーションで優れるように設計されており、チャットインタラクションや即座のコーディング提案など、動的なタスクに不可欠な迅速な応答時間を提供します。 これにより、ソフトウェア開発、カスタマーサービスボット、データ管理システムなど、速度と精度の両方を要求する環境に非常に適しています。 このモデルは現在、[Claude 3.5 Haiku (2024-10-22)](/anthropic/claude-3-5-haiku-20241022)を指しています。
Claude 3.5 Sonnet
anthropic/claude-3.5-sonnet新しいClaude 3.5 Sonnetは、Opusを上回る性能を提供しながら、Sonnetより高速で、Sonnetと同じ価格です。Sonnetは特に以下の分野で優れています: - コーディング:SWE-Bench Verifiedで約49%のスコアを獲得し、これまでの最高スコアを上回っており、複雑なプロンプトスキャフォルディングなしで実現 - データサイエンス:人間のデータサイエンス専門知識を補強し、非構造化データを操作しながら複数のツールを使用して洞察を得る - ビジュアル処理:チャート、グラフ、画像の解釈に優れており、テキストを正確に転記して、テキストだけでは得られない洞察を導き出す - エージェンティックタスク:優れたツール使用能力により、エージェンティックタスク(つまり、他のシステムとの連携が必要な複雑な多段階問題解決タスク)に最適 #マルチモーダル
Claude 3.7 Sonnet
anthropic/claude-3.7-sonnetClaude 3.7 Sonnetは、推論、コーディング、問題解決能力が向上した高度な大規模言語モデルです。ハイブリッド推論アプローチを導入しており、ユーザーは迅速な応答と複雑なタスク向けの段階的な処理の拡張の間で選択できます。このモデルは、特にフロントエンド開発とフルスタック更新におけるコーディングの顕著な改善を示しており、複数ステップのプロセスを自律的にナビゲートできるエージェンティックワークフローで優れています。 Claude 3.7 Sonnetは、標準モードで前身との性能パリティを維持しながら、数学、コーディング、および指示追従タスクにおける精度向上のための拡張推論モードを提供しています。 詳細は[こちらのブログ記事](https://www.anthropic.com/news/claude-3-7-sonnet)をご覧ください。
Claude 3 Haiku
anthropic/claude-3-haikuClaude 3 Haikuはアンスロピックの最速かつ最もコンパクトなモデルで、ほぼ瞬時の応答性を実現します。迅速で正確なターゲット性能です。 ローンチアナウンスメントとベンチマーク結果は[こちら](https://www.anthropic.com/news/claude-3-haiku)をご覧ください #マルチモーダル
Claude Haiku 4.5
anthropic/claude-haiku-4.5Claude Haiku 4.5はAnthropicの最速かつ最も効率的なモデルであり、より大規模なClaudeモデルのコストとレイテンシーのほんの一部で、ほぼ最先端のインテリジェンスを提供します。Claude Sonnet 4の推論、コーディング、コンピュータ使用タスク全般のパフォーマンスに匹敵し、Haiku 4.5はリアルタイムおよび大量処理アプリケーションに最先端の機能をもたらします。 Haiku系列に拡張思考を導入し、制御可能な推論深度、要約または段階的な思考出力、およびコーディング、bash、ウェブ検索、コンピュータ使用ツールの完全なサポートを備えたツール支援ワークフローを実現します。SWE-bench Verifiedで73%以上のスコアを獲得し、Haiku 4.5は世界最高のコーディングモデルの一つとしてランクされながら、サブエージェント、並列実行、スケール展開に対して優れた応答性を維持しています。
Claude Opus 4
anthropic/claude-opus-4Claude Opus 4は、リリース時点で世界最高のコーディングモデルとしてベンチマークされており、複雑で長時間実行されるタスクとエージェントワークフローにおいて持続的なパフォーマンスをもたらします。ソフトウェアエンジニアリングで新しいベンチマークを設定し、SWE-bench(72.5%)とTerminal-bench(43.2%)で最高の結果を達成しています。Opus 4は拡張されたエージェンティックワークフローに対応し、数時間にわたって数千のタスクステップを継続的に処理でき、パフォーマンスの低下はありません。 詳細は[こちらのブログ投稿](https://www.anthropic.com/news/claude-4)をご覧ください。
Claude Opus 4.1
anthropic/claude-opus-4.1Claude Opus 4.1は、Anthropicのフラッグシップモデルの更新版で、コーディング、推論、エージェントタスクにおけるパフォーマンスが向上しています。SWE-bench Verifiedで74.5%を達成し、マルチファイルコードリファクタリング、デバッグ精度、詳細指向の推論において顕著な改善を示しています。このモデルは最大64Kトークンまでの拡張思考をサポートし、研究、データ分析、ツール支援推論を含むタスクに最適化されています。
Claude Opus 4.5
anthropic/claude-opus-4.5Claude Opus 4.5はAnthropicのフロンティア推論モデルで、複雑なソフトウェアエンジニアリング、エージェントワークフロー、長期的なコンピュータ使用に最適化されています。強力なマルチモーダル機能、実世界のコーディングと推論ベンチマークにおける競争力のあるパフォーマンス、プロンプトインジェクションに対する改善された堅牢性を提供します。このモデルは、様々な労力レベルで効率的に動作するように設計されており、開発者がタスク要件に応じて速度、深さ、トークン使用量をトレードオフできます。トークン効率を制御する新しいパラメータが付属しており、OpenRouter Verbosityパラメータを使用してlow、medium、またはhighでアクセスできます。 Opus 4.5は高度なツール使用、拡張されたコンテキスト管理、調整されたマルチエージェント設定をサポートしており、自律型研究、デバッグ、マルチステップ計画、スプレッドシート/ブラウザ操作に適しています。前世代のOpusと比較して、構造化推論、実行信頼性、アライメントにおいて大幅な改善をもたらし、トークンオーバーヘッドを削減し、長時間実行タスクのパフォーマンスを向上させます。
Claude Opus 4.6
anthropic/claude-opus-4.6Opus 4.6はAnthropicの最強のコーディングモデルであり、長時間実行される専門的なタスク向けに設計されています。単一のプロンプトではなく、ワークフロー全体を操作するエージェント向けに構築されており、大規模なコードベース、複雑なリファクタリング、時間をかけて展開する複数ステップのデバッグに特に効果的です。このモデルは、前世代よりも深いコンテキスト理解、より強力な問題分解、困難なエンジニアリングタスクにおけるより高い信頼性を示しています。 コーディング以外にも、Opus 4.6は継続的な知識作業に優れています。本番環境に近いドキュメント、計画、分析を1回のパスで生成し、非常に長い出力と拡張セッション全体にわたって一貫性を維持します。これにより、技術設計、マイグレーション計画、エンドツーエンドのプロジェクト実行など、持続性、判断力、フォローアップが必要なタスクに最適なデフォルトになります。 以前のOpusバージョンからアップグレードするユーザーは、[こちらの公式マイグレーションガイド](https://openrouter.ai/docs/guides/guides/model-migrations/claude-4-6-opus)をご覧ください。
Claude Sonnet 4
anthropic/claude-sonnet-4Claude Sonnet 4は前身のSonnet 3.7の機能を大幅に強化し、コーディングと推論タスクの両方で改善された精度と制御性に優れています。SWE-bench(72.7%)で最先端のパフォーマンスを達成し、Sonnet 4は能力と計算効率のバランスを取り、日常的なコーディングタスクから複雑なソフトウェア開発プロジェクトまで、幅広いアプリケーションに適しています。主な改善点には、自律的なコードベースナビゲーションの向上、エージェント駆動ワークフローでのエラー率の削減、複雑な指示に従う信頼性の向上が含まれます。Sonnet 4は実用的な日常使用に最適化されており、多様な内部および外部シナリオで効率性と応答性を維持しながら、高度な推論機能を提供します。 詳細は[こちらのブログ記事](https://www.anthropic.com/news/claude-4)をご覧ください。
Claude Sonnet 4.5
anthropic/claude-sonnet-4.5Claude Sonnet 4.5はAnthropicの最新かつ最も高度なSonnetモデルであり、実世界のエージェントとコーディングワークフロー向けに最適化されています。SWE-bench Verifiedなどのコーディングベンチマークで最先端のパフォーマンスを実現し、システム設計、コードセキュリティ、仕様準拠の面で改善されています。このモデルは拡張された自律操作向けに設計されており、セッション間でタスク継続性を維持し、事実ベースの進捗追跡を提供します。 Sonnet 4.5はまた、より強力なエージェント機能を導入しており、ツールオーケストレーションの改善、推測的並列実行、およびより効率的なコンテキストとメモリ管理が含まれています。強化されたコンテキスト追跡とツール呼び出し全体のトークン使用量の認識により、マルチコンテキストおよび長時間実行されるワークフローに特に適しています。ユースケースはソフトウェアエンジニアリング、サイバーセキュリティ、財務分析、研究エージェント、および継続的な推論とツール使用を必要とする他の領域に及びます。
Claude Sonnet 4.6
anthropic/claude-sonnet-4.6Sonnet 4.6はAnthropicの最新かつ最も高性能なSonnetクラスモデルであり、コーディング、エージェント、プロフェッショナルワークにおいて最先端のパフォーマンスを発揮します。反復的な開発、複雑なコードベースのナビゲーション、メモリを備えたエンドツーエンドのプロジェクト管理、洗練されたドキュメント作成、およびウェブQAとワークフロー自動化のための自信を持ったコンピュータ使用に優れています。
Command A
cohere/command-aCommand Aは、エージェント、多言語、コーディングのユースケースにおいて優れたパフォーマンスを提供することに焦点を当てた、1110億パラメータのオープンウェイト モデルで、256kのコンテキストウィンドウを備えています。 他の主要な独自モデルおよびオープンウェイト モデルと比較して、Command Aは最小限のハードウェアコストで最大のパフォーマンスを実現し、ビジネスに不可欠なエージェントタスクと多言語タスクで優れています。
Command R (08-2024)
cohere/command-r-08-2024command-r-08-2024は、多言語検索拡張生成(RAG)とツール使用のパフォーマンスが向上した[Command R](/models/cohere/command-r)のアップデート版です。より広く言えば、数学、コード、推論能力が向上しており、以前のより大規模なCommand R+モデルのバージョンと競争力があります。 ローンチポストは[こちら](https://docs.cohere.com/changelog/command-gets-refreshed)をご覧ください。 このモデルの使用はCohereの[利用ポリシー](https://docs.cohere.com/docs/usage-policy)および[SaaS契約](https://cohere.com/saas-agreement)の対象となります。
Command R+ (08-2024)
cohere/command-r-plus-08-2024command-r-plus-08-2024は、[Command R+](/models/cohere/command-r-plus)のアップデート版で、前のCommand R+バージョンと比べて約50%高いスループットと25%低いレイテンシーを実現しながら、ハードウェアフットプリントは同じに保たれています。 ローンチポストは[こちら](https://docs.cohere.com/changelog/command-gets-refreshed)でご覧ください。 このモデルの使用はCohereの[使用ポリシー](https://docs.cohere.com/docs/usage-policy)および[SaaS契約](https://cohere.com/saas-agreement)に従うものとします。
Command R7B (12-2024)
cohere/command-r7b-12-2024Command R7B(12-2024)は、2024年12月にリリースされたCommand R+モデルの小規模で高速なアップデートです。RAG、ツール使用、エージェント、および複雑な推論と複数のステップを必要とする同様のタスクに優れています。 このモデルの使用は、Cohereの[利用ポリシー](https://docs.cohere.com/docs/usage-policy)および[SaaS契約](https://cohere.com/saas-agreement)に従うものとします。
DeepSeek R1T2 Chimera
tngtech/deepseek-r1t2-chimeraDeepSeek-TNG-R1T2-Chimera は TNG Tech による第2世代の Chimera モデルです。DeepSeek-AI の R1-0528、R1、V3-0324 チェックポイントから Assembly-of-Experts マージで組み立てられた 671 B パラメータの混合専門家テキスト生成モデルです。3親設計により強力な推論性能を実現しながら、vLLM 下で元の R1 より約 20% 高速に、R1-0528 より 2 倍以上高速に動作し、優れたコスト対知能トレードオフを提供します。このチェックポイントは標準使用で最大 60k トークンのコンテキストに対応し(約 130k までテスト済み)、一貫した <think> トークン動作を維持しており、長文脈分析、対話、その他のオープンエンド生成タスクに適しています。
DeepSeek V3
deepseek/deepseek-chatDeepSeek-V3は、DeepSeekチームの最新モデルであり、前のバージョンの指示追従能力とコーディング能力を基盤としています。約15兆トークンで事前学習されており、報告された評価によると、このモデルは他のオープンソースモデルを上回り、主要なクローズドソースモデルに匹敵します。 モデルの詳細については、詳細情報は[DeepSeek-V3リポジトリ](https://github.com/deepseek-ai/DeepSeek-V3)をご覧いただくか、[ローンチアナウンスメント](https://api-docs.deepseek.com/news/news1226)をご参照ください。
DeepSeek V3 0324
deepseek/deepseek-chat-v3-0324DeepSeek V3は、685Bパラメータの混合専門家モデルであり、DeepSeekチームのフラッグシップチャットモデルファミリーの最新版です。 [DeepSeek V3](/deepseek/deepseek-chat-v3)モデルの後継であり、様々なタスクで優れたパフォーマンスを発揮します。
DeepSeek V3.1
deepseek/deepseek-chat-v3.1DeepSeek-V3.1は、プロンプトテンプレートを介して思考モードと非思考モードの両方をサポートする大規模ハイブリッド推論モデル(6710億パラメータ、370億アクティブ)です。DeepSeek-V3ベースを拡張し、2段階の長文脈トレーニングプロセスで最大128Kトークンに対応し、効率的な推論のためにFP8マイクロスケーリングを使用しています。ユーザーは`reasoning` `enabled`ブール値を使用して推論動作を制御できます。[詳細はドキュメントをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) このモデルはツール使用、コード生成、推論効率を改善し、難しいベンチマークではDeepSeek-R1に匹敵するパフォーマンスを達成しながら、より迅速に応答します。構造化されたツール呼び出し、コードエージェント、検索エージェントをサポートしており、研究、コーディング、エージェントワークフローに適しています。 [DeepSeek V3-0324](/deepseek/deepseek-chat-v3-0324)モデルの後継であり、様々なタスクで優れたパフォーマンスを発揮します。
DeepSeek V3.1 Nex N1
nex-agi/deepseek-v3.1-nex-n1DeepSeek V3.1 Nex-N1は、Nex-N1シリーズのフラッグシップリリースであり、エージェント自律性、ツール使用、および実世界の生産性を強調するために設計されたポスト学習モデルです。 Nex-N1は、すべての評価シナリオにおいて競争力のあるパフォーマンスを示し、特に実践的なコーディングとHTML生成タスクで強力な結果を示しています。
DeepSeek V3.1 Terminus
deepseek/deepseek-v3.1-terminusDeepSeek-V3.1 Terminusは、[DeepSeek V3.1](/deepseek/deepseek-chat-v3.1)のアップデートで、モデルの元の機能を維持しながら、言語の一貫性とエージェント機能を含むユーザーから報告された問題に対処し、コーディングおよび検索エージェントにおけるモデルのパフォーマンスをさらに最適化しています。671Bパラメータ(37Bアクティブ)の大規模ハイブリッド推論モデルで、思考モードと非思考モードの両方をサポートしています。DeepSeek-V3ベースを2段階の長文脈トレーニングプロセスで拡張し、最大128Kトークンに達し、効率的な推論のためにFP8マイクロスケーリングを使用しています。ユーザーは`reasoning` `enabled`ブール値で推論動作を制御できます。[ドキュメントで詳細を確認してください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) このモデルはツール使用、コード生成、推論効率を改善し、難しいベンチマークでDeepSeek-R1に匹敵するパフォーマンスを達成しながら、より迅速に応答します。構造化されたツール呼び出し、コードエージェント、検索エージェントをサポートしており、研究、コーディング、エージェントワークフローに適しています。
DeepSeek V3.1 Terminus (exacto)
deepseek/deepseek-v3.1-terminus:exactoDeepSeek-V3.1 Terminusは、[DeepSeek V3.1](/deepseek/deepseek-chat-v3.1)のアップデートで、モデルの元の機能を維持しながら、言語の一貫性とエージェント機能を含むユーザーから報告された問題に対処し、コーディングおよび検索エージェントにおけるモデルのパフォーマンスをさらに最適化しています。これは大規模なハイブリッド推論モデル(6710億パラメータ、370億アクティブ)で、思考モードと非思考モードの両方をサポートしています。DeepSeek-V3ベースを2段階の長文脈トレーニングプロセスで拡張し、最大128Kトークンに達し、効率的な推論のためにFP8マイクロスケーリングを使用しています。ユーザーは`reasoning` `enabled`ブール値で推論動作を制御できます。[ドキュメントで詳細を確認してください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) このモデルはツール使用、コード生成、推論効率を改善し、難しいベンチマークでDeepSeek-R1に匹敵するパフォーマンスを達成しながら、より迅速に応答します。構造化されたツール呼び出し、コードエージェント、検索エージェントをサポートしており、研究、コーディング、エージェントワークフローに適しています。
DeepSeek V3.2
deepseek/deepseek-v3.2DeepSeek-V3.2は、高い計算効率と強力な推論およびエージェント的ツール使用性能を調和させるように設計された大規模言語モデルです。DeepSeek Sparse Attention(DSA)という細粒度のスパース注意メカニズムを導入しており、長文脈シナリオにおいて品質を保ちながら訓練と推論のコストを削減します。スケーラブルな強化学習ポストトレーニングフレームワークがさらに推論を改善し、GPT-5クラスの性能が報告されており、このモデルは2025年のIMOとIOIで金メダルの成績を示しています。V3.2はまた、大規模なエージェント的タスク合成パイプラインを使用して、推論をツール使用設定にさらに統合し、インタラクティブ環境での準拠性と汎化性を向上させます。 ユーザーは`reasoning` `enabled`ブール値を使用して推論動作を制御できます。[詳細はドキュメントを参照してください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)
DeepSeek V3.2 Exp
deepseek/deepseek-v3.2-expDeepSeek-V3.2-Expは、DeepSeekがV3.1と将来のアーキテクチャの中間段階として公開した実験的な大規模言語モデルです。DeepSeek Sparse Attention(DSA)を導入しており、これは長文脈シナリオにおけるトレーニングと推論の効率を改善しながら出力品質を維持するために設計された細粒度のスパースアテンションメカニズムです。ユーザーは`reasoning`の`enabled`ブール値を使用して推論動作を制御できます。[詳細はドキュメントをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config) このモデルはV3.1-Terminusと一致した条件下でトレーニングされており、直接比較が可能です。ベンチマークでは、推論、コーディング、エージェント的ツール使用タスク全体でV3.1とほぼ同等のパフォーマンスを示しており、ドメインによって軽微なトレードオフと改善があります。このリリースは、生のタスク精度を向上させるのではなく、拡張コンテキスト長のための建築上の最適化を検証することに焦点を当てており、効率的なトランスフォーマー設計を探索するための主に研究指向のモデルとなっています。
DeepSeek V3.2 Speciale
deepseek/deepseek-v3.2-specialeDeepSeek-V3.2-Specialeは、最大限の推論と自律型エージェント性能に最適化されたDeepSeek-V3.2の高計算量バリアントです。効率的な長文脈処理のためのDeepSeek Sparse Attention(DSA)に基づいており、その後、ポストトレーニング強化学習をスケーリングして、ベースモデルを超える能力を実現します。報告された評価では、Specialeは困難な推論タスクでGPT-5を上回り、Gemini-3.0-Proと同等の習熟度を示しながら、強力なコーディングとツール使用の信頼性を保持しています。V3.2と同様に、対話型環境でのコンプライアンスと汎化を改善する大規模な自律型タスク合成パイプラインの恩恵を受けています。
Devstral 2 2512
mistralai/devstral-2512Devstral 2はMistral AIによる最先端のオープンソースモデルで、エージェント型コーディングに特化しています。123Bパラメータの密集型トランスフォーマーモデルで、256Kのコンテキストウィンドウをサポートしています。 Devstral 2は、コードベースの探索と複数ファイル間での変更の調整をサポートしており、アーキテクチャレベルのコンテキストを維持します。フレームワークの依存関係を追跡し、障害を検出し、修正を加えて再試行します。バグ修正やレガシーシステムの最新化といった課題を解決できます。このモデルは、特定の言語を優先するように、または大規模なエンタープライズコードベース向けに最適化するように微調整することができます。修正版MITライセンスの下で利用可能です。
Devstral Medium
mistralai/devstral-mediumDevstral Mediumは、Mistral AIとAll Hands AIが共同開発した高性能なコード生成およびエージェント推論モデルです。Devstral Smallの上位版として位置付けられており、SWE-Bench Verifiedで61.6%を達成し、コード関連タスクではGemini 2.5 ProおよびGPT-4.1を上回りながら、大幅に低いコストで利用できます。プロンプトスタイルの多様性とコードエージェントおよびフレームワークでのツール使用に対応するよう設計されています。 Devstral MediumはAPI経由でのみ利用可能(オープンウェイトではなく)であり、プライベートインフラストラクチャ上でのエンタープライズデプロイメントをサポートしており、オプションのファインチューニング機能が備わっています。
Gemini 2.0 Flash
google/gemini-2.0-flash-001Gemini Flash 2.0は、[Gemini Flash 1.5](/google/gemini-flash-1.5)と比べて最初のトークンまでの時間(TTFT)が大幅に短縮されており、[Gemini Pro 1.5](/google/gemini-pro-1.5)などのより大規模なモデルと同等の品質を維持しています。マルチモーダル理解、コーディング機能、複雑な指示への対応、関数呼び出しにおいて顕著な改善が導入されています。これらの進歩により、より円滑で堅牢なエージェント体験を実現します。
Gemini 2.0 Flash Lite
google/gemini-2.0-flash-lite-001Gemini 2.0 Flash Liteは、[Gemini Flash 1.5](/google/gemini-flash-1.5)と比べて最初のトークンまでの時間(TTFT)が大幅に高速化されており、[Gemini Pro 1.5](/google/gemini-pro-1.5)のような大規模モデルと同等の品質を維持しながら、極めて経済的なトークン価格を実現しています。
Gemini 2.5 Flash
google/gemini-2.5-flashGemini 2.5 Flashは、Google最先端の汎用モデルであり、高度な推論、コーディング、数学、科学的タスク向けに特別に設計されています。組み込みの「思考」機能を備えており、より高い精度とニュアンスに富んだコンテキスト処理を備えた応答を提供することができます。 さらに、Gemini 2.5 Flashは、ドキュメント(https://openrouter.ai/docs/use-cases/reasoning-tokens#max-tokens-for-reasoning)に記載されているように、「推論用の最大トークン数」パラメータを通じて設定可能です。
Gemini 2.5 Flash Lite
google/gemini-2.5-flash-liteGemini 2.5 Flash-Liteは、Gemini 2.5ファミリーの軽量推論モデルで、超低レイテンシーとコスト効率に最適化されています。以前のFlashモデルと比較して、スループットの向上、トークン生成の高速化、一般的なベンチマーク全体でのパフォーマンス向上を実現しています。デフォルトでは、速度を優先するために「思考」(つまり、マルチパス推論)は無効になっていますが、開発者は[推論APIパラメータ](https://openrouter.ai/docs/use-cases/reasoning-tokens)を使用して有効にすることで、コストと知能のトレードオフを選択的に行うことができます。
Gemini 2.5 Flash Lite Preview 09-2025
google/gemini-2.5-flash-lite-preview-09-2025Gemini 2.5 Flash-Liteは、Gemini 2.5ファミリーの軽量推論モデルで、超低レイテンシーとコスト効率に最適化されています。以前のFlashモデルと比較して、スループットの向上、トークン生成の高速化、一般的なベンチマーク全体でのパフォーマンス向上を実現しています。デフォルトでは、速度を優先するために「思考」(つまり、マルチパス推論)は無効になっていますが、開発者は[推論APIパラメータ](https://openrouter.ai/docs/use-cases/reasoning-tokens)を使用して有効にし、コストと知能をトレードオフさせることができます。
Gemini 2.5 Pro
google/gemini-2.5-proGemini 2.5 Proは、高度な推論、コーディング、数学、科学的タスク向けに設計されたGoogleの最先端AIモデルです。「思考」機能を採用しており、強化された精度とニュアンスに富んだコンテキスト処理で応答を推論することができます。Gemini 2.5 Proは、LMArenaリーダーボードでの第1位の位置付けを含む複数のベンチマークで最高レベルのパフォーマンスを達成し、優れた人間の好みへの適合性と複雑な問題解決能力を反映しています。
Gemini 2.5 Pro Preview 05-06
google/gemini-2.5-pro-preview-05-06Gemini 2.5 Proは、高度な推論、コーディング、数学、科学的タスク向けに設計されたGoogleの最先端AIモデルです。「思考」機能を採用しており、強化された精度とニュアンスに富んだコンテキスト処理で応答を推論することができます。Gemini 2.5 Proは、LMArenaリーダーボードでの1位獲得を含む複数のベンチマークで最高レベルのパフォーマンスを達成しており、優れた人間の好みへの適合性と複雑な問題解決能力を反映しています。
Gemini 2.5 Pro Preview 06-05
google/gemini-2.5-pro-previewGemini 2.5 Proは、高度な推論、コーディング、数学、科学的タスク向けに設計されたGoogleの最先端AIモデルです。「思考」機能を採用しており、強化された精度とニュアンスに富んだコンテキスト処理で応答を推論することができます。Gemini 2.5 Proは、LMArenaリーダーボードでの1位獲得を含む複数のベンチマークで最高水準のパフォーマンスを達成し、優れた人間の好みへの適合性と複雑な問題解決能力を反映しています。
Gemini 3.1 Flash Lite Preview
google/gemini-3.1-flash-lite-previewGemini 3.1 Flash Lite Previewは、大量使用ケースに最適化されたGoogleの高効率モデルです。全体的な品質ではGemini 2.5 Flash Liteを上回り、主要な機能ではGemini 2.5 Flashのパフォーマンスに近づいています。音声入力/ASR、RAGスニペットランキング、翻訳、データ抽出、コード補完にわたる改善が含まれています。細かなコスト/パフォーマンスのトレードオフのために、完全な思考レベル(最小、低、中、高)をサポートしています。Gemini 3 Flashのコストの半分の価格です。
Gemini 3.1 Pro Preview
google/gemini-3.1-pro-previewGemini 3.1 Pro Previewは、Google の最先端推論モデルであり、ソフトウェアエンジニアリングのパフォーマンス向上、エージェント信頼性の改善、複雑なワークフロー全体でのより効率的なトークン使用を実現します。Gemini 3シリーズのマルチモーダル基盤に基づいており、テキスト、画像、ビデオ、オーディオ、コード全体での高精度推論と100万トークンのコンテキストウィンドウを組み合わせています。マルチターンツール呼び出しを使用する場合、推論の詳細を保持する必要があります。詳細については、こちらのドキュメントを参照してください:https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning。3.1アップデートでは、SWEベンチマークと実際のコーディング環境での測定可能な改善、および金融やスプレッドシートベースのワークフローなどの構造化ドメインでのより強力な自律タスク実行が導入されています。 高度な開発とエージェントシステム向けに設計された Gemini 3.1 Pro Preview は、長期的な安定性とツールオーケストレーションを改善しながら、トークン効率を向上させます。コスト、速度、パフォーマンスのバランスを取るために、新しい中程度の思考レベルが導入されています。このモデルは、エージェントコーディング、構造化計画、マルチモーダル分析、ワークフロー自動化に優れており、自律エージェント、財務モデリング、スプレッドシート自動化、および高コンテキストエンタープライズタスクに適しています。
Gemini 3.1 Pro Preview Custom Tools
google/gemini-3.1-pro-preview-customtoolsGemini 3.1 Pro Preview Custom Toolsは、Gemini 3.1 Proの変種で、より効率的なサードパーティ製またはユーザー定義の関数が利用可能な場合に、汎用bashツールの過度な使用を防ぐことで、ツール選択の動作を改善します。この特殊なプレビューエンドポイントは、関数呼び出しの信頼性を大幅に向上させ、コーディングエージェントと複雑なマルチツールワークフローで最も適切なツールを選択することを保証します。 Gemini 3.1 Proのコア強力機能を保持しており、テキスト、画像、ビデオ、オーディオ、コードにわたるマルチモーダル推論、100万トークンのコンテキストウィンドウ、および強力なソフトウェアエンジニアリングパフォーマンスが含まれます。
Gemini 3 Flash Preview
google/gemini-3-flash-previewGemini 3 Flash Previewは、エージェンティックワークフロー、マルチターンチャット、コーディング支援向けに設計された高速で高い価値を提供する思考モデルです。大規模なGeminiバリアントよりも大幅に低いレイテンシーでProレベルに近い推論とツール使用パフォーマンスを提供し、インタラクティブな開発、長時間実行されるエージェントループ、協調的なコーディングタスクに最適です。Gemini 2.5 Flashと比較して、推論、マルチモーダル理解、信頼性全体にわたって幅広い品質改善を提供します。 このモデルは100万トークンのコンテキストウィンドウをサポートし、テキスト、画像、オーディオ、ビデオ、PDFを含むマルチモーダル入力とテキスト出力に対応しています。設定可能な思考レベル(最小、低、中、高)、構造化出力、ツール使用、自動コンテキストキャッシングが含まれています。Gemini 3 Flash Previewは、フルスケールのフロンティアモデルのコストやレイテンシーなしに、強力な推論とエージェンティック動作を求めるユーザーに最適化されています。
Gemini 3 Pro Preview
google/gemini-3-pro-previewGemini 3 Proはテキスト、画像、動画、音声、コードにわたる強力なパフォーマンスと100万トークンのコンテキストウィンドウを備えたGoogleのフラッグシップフロンティアモデルで、高精度のマルチモーダル推論に対応しています。マルチターンツール呼び出しを使用する場合、推論の詳細を保持する必要があります。詳細はhttps://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocksのドキュメントを参照してください。一般的な推論、STEM問題解決、事実的なQA、マルチモーダル理解において最先端のベンチマーク結果を提供し、LMArena、GPQA Diamond、MathArena Apex、MMMU-Pro、Video-MMUで業界トップのスコアを達成しています。相互作用は深さと解釈可能性を重視しており、このモデルは最小限のプロンプトで意図を推測し、直接的で洞察に焦点を当てた応答を生成するように設計されています。 高度な開発とエージェントワークフロー向けに構築されたGemini 3 Proは、堅牢なツール呼び出し、長期的な計画の安定性、複雑なUI、ビジュアライゼーション、コーディングタスク向けの強力なゼロショット生成を提供します。エージェントコーディング(SWE-Bench Verified、Terminal-Bench 2.0)、マルチモーダル分析、研究合成、計画、インタラクティブラーニング体験などの構造化された長文タスクに優れています。適切な応用例には、自律エージェント、コーディングアシスタント、マルチモーダル分析、科学的推論、高コンテキスト情報処理が含まれます。
Gemini Flash Lite
google/gemini-flash-liteGeminiシリーズにおけるGoogleの最速かつ最もコスト効率の高いモデル。2.5倍高速なトークン生成までの時間を備えたフロンティアクラスのパフォーマンスを提供し、大量処理と低遅延が求められるアプリケーションに最適です。
Gemma 2 27B
google/gemma-2-27b-itGoogle の Gemma 2 27B は、[Gemini モデル](/models?q=gemini)の作成に使用されたのと同じ研究と技術から構築されたオープンモデルです。 Gemma モデルは、質問応答、要約、推論など、さまざまなテキスト生成タスクに適しています。 詳細については、[ローンチアナウンスメント](https://blog.google/technology/developers/google-gemma-2/)を参照してください。Gemma の使用は、Google の [Gemma 利用規約](https://ai.google.dev/gemma/terms)に従うものとします。
Gemma 2 9B
google/gemma-2-9b-itGoogle による Gemma 2 9B は、そのサイズクラスにおいて効率性とパフォーマンスの新しい基準を設定する、高度なオープンソース言語モデルです。 様々なタスク向けに設計されており、開発者と研究者が革新的なアプリケーションを構築できるようにしながら、アクセシビリティ、安全性、費用対効果を維持しています。 詳細については、[ローンチアナウンスメント](https://blog.google/technology/developers/google-gemma-2/)をご覧ください。Gemma の使用は Google の[Gemma 利用規約](https://ai.google.dev/gemma/terms)に従うものとします。
Gemma 3 12B
google/gemma-3-12b-itGemma 3はマルチモーダル機能を導入し、ビジョン言語入力とテキスト出力をサポートしています。最大128kトークンのコンテキストウィンドウを処理でき、140以上の言語を理解し、構造化出力と関数呼び出しを含む、改善された数学、推論、チャット機能を提供します。Gemma 3 12BはGemma 3 27B以降、Gemma 3モデルファミリーで2番目に大きいモデルです。
Gemma 3 12B (free)
google/gemma-3-12b-it:freeGemma 3はマルチモーダル機能を導入し、ビジョン言語入力とテキスト出力をサポートしています。最大128kトークンのコンテキストウィンドウを処理でき、140以上の言語を理解し、構造化出力と関数呼び出しを含む、改善された数学、推論、チャット機能を提供します。Gemma 3 12Bは、[Gemma 3 27B](google/gemma-3-27b-it)に次ぐGemma 3モデルファミリーの2番目に大きいモデルです。
Gemma 3 27B
google/gemma-3-27b-itGemma 3はマルチモーダル機能を導入し、ビジョン言語入力とテキスト出力をサポートしています。最大128kトークンのコンテキストウィンドウを処理でき、140以上の言語を理解し、構造化出力と関数呼び出しを含む、改善された数学、推論、チャット機能を提供します。Gemma 3 27BはGoogleの最新のオープンソースモデルで、Gemma 2の後継です。
Gemma 3 27B (free)
google/gemma-3-27b-it:freeGemma 3は、ビジョン言語入力とテキスト出力をサポートするマルチモーダル機能を導入しています。最大128kトークンのコンテキストウィンドウを処理でき、140以上の言語を理解し、構造化出力と関数呼び出しを含む、改善された数学、推論、チャット機能を提供します。Gemma 3 27BはGoogleの最新のオープンソースモデルであり、[Gemma 2](google/gemma-2-27b-it)の後継です。
Gemma 3 4B
google/gemma-3-4b-itGemma 3は、マルチモーダル機能を導入し、ビジョン言語入力とテキスト出力をサポートしています。最大128kトークンのコンテキストウィンドウを処理でき、140以上の言語を理解し、構造化出力と関数呼び出しを含む、改善された数学、推論、チャット機能を提供します。
Gemma 3 4B (free)
google/gemma-3-4b-it:freeGemma 3は、ビジョン言語入力とテキスト出力をサポートするマルチモーダル機能を導入しています。最大128kトークンのコンテキストウィンドウを処理し、140以上の言語を理解し、構造化出力と関数呼び出しを含む、改善された数学、推論、チャット機能を提供します。
Gemma 3n 4B
google/gemma-3n-e4b-itGemma 3n E4B-itは、スマートフォン、ノートパソコン、タブレットなどのモバイルおよび低リソースデバイスでの効率的な実行に最適化されています。テキスト、視覚データ、オーディオを含むマルチモーダル入力をサポートしており、テキスト生成、音声認識、翻訳、画像分析などの多様なタスクを実現します。Per-Layer Embedding(PLE)キャッシングとMatFormerアーキテクチャなどのイノベーションを活用して、Gemma 3nはモデルパラメータを選択的にアクティベートすることで、メモリ使用量と計算負荷を動的に管理し、実行時のリソース要件を大幅に削減します。 このモデルは広範な言語対応(140以上の言語で学習)をサポートし、柔軟な32Kトークンのコンテキストウィンドウを備えています。Gemma 3nはパラメータを選択的に読み込むことができ、タスクまたはデバイスの機能に基づいてメモリと計算効率を最適化するため、プライバシー重視のオフライン対応アプリケーションおよびオンデバイスAIソリューションに最適です。[ブログ投稿で詳細をご覧ください](https://developers.googleblog.com/en/introducing-gemma-3n/)
Gemma 3n 4B (free)
google/gemma-3n-e4b-it:freeGemma 3n E4B-itは、スマートフォン、ノートパソコン、タブレットなどのモバイルおよび低リソースデバイスでの効率的な実行に最適化されています。テキスト、ビジュアルデータ、オーディオを含むマルチモーダル入力をサポートしており、テキスト生成、音声認識、翻訳、画像分析など、多様なタスクを実現します。Per-Layer Embedding(PLE)キャッシングとMatFormerアーキテクチャなどのイノベーションを活用することで、Gemma 3nはモデルパラメータを選択的に活性化させることで動的にメモリ使用量と計算負荷を管理し、実行時のリソース要件を大幅に削減します。 このモデルは広範な言語対応(140以上の言語で学習)をサポートし、柔軟な32Kトークンのコンテキストウィンドウを備えています。Gemma 3nはパラメータを選択的に読み込むことができ、タスクまたはデバイスの機能に基づいてメモリと計算効率を最適化するため、プライバシーに配慮したオフライン対応アプリケーションおよびオンデバイスAIソリューションに最適です。[ブログ投稿で詳細をご覧ください](https://developers.googleblog.com/en/introducing-gemma-3n/)
GLM 4.5
z-ai/glm-4.5GLM-4.5は、エージェントベースのアプリケーション向けに特別に設計された最新のフラッグシップ基盤モデルです。Mixture-of-Experts(MoE)アーキテクチャを活用し、最大128kトークンのコンテキスト長をサポートしています。GLM-4.5は、推論、コード生成、エージェント整合性において大幅に強化された機能を提供します。「思考モード」と「非思考モード」の2つのオプションを備えたハイブリッド推論モードをサポートしており、「思考モード」は複雑な推論とツール使用向けに設計され、「非思考モード」は即座の応答に最適化されています。ユーザーは`reasoning` `enabled`ブール値で推論動作を制御できます。[詳細はドキュメントをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)
GLM 4.5 Air
z-ai/glm-4.5-airGLM-4.5-Airは、最新フラグシップモデルファミリーの軽量バリアントであり、エージェント中心のアプリケーション向けに特別に設計されています。GLM-4.5と同様に、Mixture-of-Experts(MoE)アーキテクチャを採用していますが、より小さなパラメータサイズです。GLM-4.5-Airはハイブリッド推論モードもサポートしており、高度な推論とツール使用のための「思考モード」と、リアルタイム相互作用のための「非思考モード」を提供します。ユーザーは`reasoning` `enabled`ブール値で推論動作を制御できます。[詳細はドキュメントをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)
GLM 4.5 Air (free)
z-ai/glm-4.5-air:freeGLM-4.5-Airは、最新のフラグシップモデルファミリーの軽量バリアントであり、エージェント中心のアプリケーション向けに特別に設計されています。GLM-4.5と同様に、Mixture-of-Experts(MoE)アーキテクチャを採用していますが、より小さなパラメータサイズになっています。GLM-4.5-Airは、ハイブリッド推論モードもサポートしており、高度な推論とツール使用のための「思考モード」と、リアルタイムインタラクション用の「非思考モード」を提供しています。ユーザーは`reasoning` `enabled`ブール値を使用して推論動作を制御できます。[詳細はドキュメントをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)
GLM 4.5V
z-ai/glm-4.5vGLM-4.5Vは、マルチモーダルエージェントアプリケーション向けのビジョン言語基盤モデルです。106Bパラメータと12Bの活性化パラメータを備えたMixture-of-Experts(MoE)アーキテクチャに基づいており、ビデオ理解、画像Q&A、OCR、ドキュメント解析で最先端の結果を達成し、フロントエンドウェブコーディング、グラウンディング、空間推論で大幅な改善を実現しています。ハイブリッド推論モードを提供します:深い推論のための「思考モード」と高速応答のための「非思考モード」です。推論動作は`reasoning` `enabled`ブール値で切り替えることができます。[ドキュメントで詳細をご確認ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)
GLM 4.6
z-ai/glm-4.6GLM-4.5と比較して、今世代は以下のような重要な改善をもたらします: より長いコンテキストウィンドウ:コンテキストウィンドウが128Kから200Kトークンに拡張され、より複雑なエージェントタスクを処理できるようになりました。 優れたコーディング性能:コードベンチマークでより高いスコアを達成し、Claude Code、Cline、Roo Code、Kilo Codeなどのアプリケーションでより優れた実世界のパフォーマンスを実証しており、視覚的に洗練されたフロントエンドページの生成における改善も含まれています。 高度な推論:GLM-4.6は推論性能の明確な改善を示し、推論中のツール使用をサポートしており、全体的な能力がより強化されています。 より高性能なエージェント:GLM-4.6はツール使用と検索ベースのエージェントでより強いパフォーマンスを示し、エージェントフレームワーク内でより効果的に統合されます。 洗練された文章作成:スタイルと可読性において人間の好みとより良く一致し、ロールプレイシナリオでより自然に機能します。
GLM 4.6 (exacto)
z-ai/glm-4.6:exactoGLM-4.5と比較して、今世代は以下のような重要な改善をもたらします: より長いコンテキストウィンドウ:コンテキストウィンドウが128Kから200Kトークンに拡張され、モデルがより複雑なエージェントタスクを処理できるようになりました。 優れたコーディング性能:コードベンチマークでより高いスコアを達成し、Claude Code、Cline、Roo Code、Kilo Codeなどのアプリケーションでより優れた実世界のパフォーマンスを実証しており、視覚的に洗練されたフロントエンドページの生成における改善も含まれます。 高度な推論:GLM-4.6は推論性能の明確な改善を示し、推論中のツール使用をサポートしており、全体的な能力がより強化されています。 より高性能なエージェント:GLM-4.6はツール使用と検索ベースのエージェントでより強いパフォーマンスを発揮し、エージェントフレームワーク内でより効果的に統合されます。 洗練された文章作成:人間の好みのスタイルと可読性とより良く一致し、ロールプレイシナリオでより自然に機能します。
GLM 4.6V
z-ai/glm-4.6vGLM-4.6Vは、画像、ドキュメント、混合メディア全体にわたって高忠実度の視覚理解と長文脈推論のために設計された大規模マルチモーダルモデルです。最大128Kトークンをサポートし、複雑なページレイアウトとチャートを視覚入力として直接処理し、知覚とダウンストリームツール実行を接続するネイティブマルチモーダル関数呼び出しを統合しています。このモデルはまた、スクリーンショットからHTMLへの合成と反復的な視覚編集を含む、インターリーブされた画像テキスト生成とUI再構築ワークフローを可能にします。
GLM 4.7
z-ai/glm-4.7GLM-4.7はZ.aiの最新フラッグシップモデルであり、2つの主要分野でのアップグレードを特徴としています:プログラミング機能の強化と、より安定した多段階推論・実行です。複雑なエージェントタスクの実行において大幅な改善を示しており、より自然な会話体験と優れたフロントエンド美学を提供します。
GLM 4.7 Flash
z-ai/glm-4.7-flash30Bクラスの最先端モデルとして、GLM-4.7-Flashはパフォーマンスと効率のバランスを取った新しい選択肢を提供します。エージェント型コーディングのユースケースに向けてさらに最適化され、コーディング機能、長期的なタスク計画、ツール連携を強化しており、現在の複数の公開ベンチマークリーダーボードで同規模のオープンソースモデルの中で最高水準のパフォーマンスを達成しています。
GLM 5
z-ai/glm-5GLM-5はZ.aiのフラッグシップオープンソース基盤モデルであり、複雑なシステム設計と長期的なエージェントワークフロー向けに設計されています。エキスパート開発者向けに構築されており、大規模プログラミングタスクで本番環境レベルのパフォーマンスを提供し、主要なクローズドソースモデルに匹敵します。高度なエージェント計画、深いバックエンド推論、反復的な自己修正により、GLM-5はコード生成を超えて、完全なシステム構築と自律実行へと進化します。
GLM 5 Turbo
z-ai/glm-5-turboGLM-5 Turboは、Z.aiが開発した新しいモデルで、高速推論とOpenClawシナリオなどのエージェント駆動環境での強力なパフォーマンスのために設計されています。長い実行チェーンを含む実世界のエージェントワークフローに深く最適化されており、複雑な命令分解の改善、ツール使用、スケジュール設定と永続的な実行、および拡張タスク全体での全体的な安定性を備えています。
GPT-3.5 Turbo
openai/gpt-3.5-turboGPT-3.5 TurboはOpenAIの最速モデルです。自然言語またはコードを理解および生成でき、チャットと従来の完了タスク用に最適化されています。 2021年9月までのトレーニングデータ。
GPT-4
openai/gpt-4OpenAIのフラッグシップモデルであるGPT-4は、より広範な一般知識と高度な推論能力により、以前のモデルよりも高い精度で難しい問題を解くことができる大規模マルチモーダル言語モデルです。学習データ:2021年9月までのデータ。
GPT-4.1
openai/gpt-4.1GPT-4.1は、高度な指示追従、実世界のソフトウェアエンジニアリング、長文脈推論に最適化されたフラッグシップ大規模言語モデルです。100万トークンのコンテキストウィンドウに対応し、コーディング(SWE-bench Verified 54.6%)、指示準拠(IFEval 87.4%)、マルチモーダル理解ベンチマークにおいてGPT-4oおよびGPT-4.5を上回ります。正確なコード差分、エージェント信頼性、大規模ドキュメントコンテキストにおける高いリコールのために調整されており、エージェント、IDEツール、エンタープライズナレッジ検索に理想的です。
GPT-4.1 Mini
openai/gpt-4.1-miniGPT-4.1 Miniは、GPT-4oと同等のパフォーマンスを大幅に低いレイテンシーとコストで実現する中規模モデルです。100万トークンのコンテキストウィンドウを保持し、難易度の高い指示評価で45.1%、MultiChallengeで35.8%、IFEvalで84.1%のスコアを獲得しています。Miniはまた強力なコーディング能力(例えば、Aiderのポリグロット差分ベンチマークで31.6%)とビジョン理解を示しており、厳しいパフォーマンス制約を持つインタラクティブアプリケーションに適しています。
GPT-4.1 Nano
openai/gpt-4.1-nano低レイテンシーが必要なタスクでは、GPT-4.1 nanoはGPT-4.1シリーズの中で最も高速で最も安価なモデルです。100万トークンのコンテキストウィンドウを備えた小規模なサイズで優れたパフォーマンスを提供し、MMLUで80.1%、GPQAで50.3%、Aiderポリグロットコーディングで9.8%のスコアを獲得しており、GPT-4o miniよりも高い結果となっています。分類や自動補完などのタスクに最適です。
GPT-4o
openai/gpt-4oGPT-4o(「o」は「omni」の意)はOpenAIの最新AIモデルで、テキストと画像の両方の入力をサポートし、テキスト出力を提供します。[GPT-4 Turbo](/models/openai/gpt-4-turbo)と同じレベルのインテリジェンスを維持しながら、処理速度は2倍、コスト効率は50%向上しています。GPT-4oはまた、非英語言語の処理性能の向上と視覚機能の強化も提供しています。 他のモデルとのベンチマーク比較のため、一時的に[「im-also-a-good-gpt2-chatbot」](https://twitter.com/LiamFedus/status/1790064963966370209)と呼ばれていました。 #マルチモーダル
GPT-4o (2024-05-13)
openai/gpt-4o-2024-05-13GPT-4o(「o」は「omni」の意)はOpenAIの最新AIモデルで、テキストと画像の両方の入力をサポートし、テキスト出力を提供します。[GPT-4 Turbo](/models/openai/gpt-4-turbo)と同等のインテリジェンスレベルを維持しながら、処理速度は2倍、コスト効率は50%向上しています。GPT-4oはまた、非英語言語の処理性能の向上と、視覚機能の強化を提供します。 他のモデルとのベンチマーク比較のため、一時的に[「im-also-a-good-gpt2-chatbot」](https://twitter.com/LiamFedus/status/1790064963966370209)と呼ばれていました。 #マルチモーダル
GPT-4o (2024-08-06)
openai/gpt-4o-2024-08-062024年8月6日版のGPT-4oは構造化出力のパフォーマンスが向上しており、レスポンス形式でJSONスキーマを提供する機能があります。詳細は[こちら](https://openai.com/index/introducing-structured-outputs-in-the-api/)をご覧ください。 GPT-4o(「o」は「omni」の意)はOpenAIの最新AIモデルで、テキストと画像の両方の入力をサポートし、テキスト出力を提供します。[GPT-4 Turbo](/models/openai/gpt-4-turbo)と同等のインテリジェンスレベルを維持しながら、2倍高速で、50%コスト効率的です。GPT-4oはまた、非英語言語の処理パフォーマンスの向上と視覚機能の強化を提供します。 他のモデルとのベンチマーク比較のため、一時的に[「im-also-a-good-gpt2-chatbot」](https://twitter.com/LiamFedus/status/1790064963966370209)と呼ばれていました。
GPT-4 (older v0314)
openai/gpt-4-0314GPT-4-0314はGPT-4の最初のバージョンで、コンテキスト長は8,192トークンであり、6月14日までサポートされていました。トレーニングデータ:2021年9月までです。
GPT-4o-mini
openai/gpt-4o-miniGPT-4o miniは、[GPT-4 Omni](/models/openai/gpt-4o)の後に続くOpenAIの最新モデルであり、テキストと画像の両方の入力をサポートし、テキスト出力を生成します。 最も高度な小規模モデルとして、他の最近のフロンティアモデルよりも何倍も手頃な価格であり、[GPT-3.5 Turbo](/models/openai/gpt-3.5-turbo)よりも60%以上安くなっています。最先端の知能を維持しながら、大幅にコスト効率が向上しています。 GPT-4o miniはMMUで82%のスコアを達成し、現在[一般的なリーダーボード](https://arena.lmsys.org/)のチャット選好度でGPT-4を上回るランクに位置しています。 詳細については、[ローンチアナウンスメント](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)をご覧ください。 #マルチモーダル
GPT-4o-mini (2024-07-18)
openai/gpt-4o-mini-2024-07-18GPT-4o miniは、[GPT-4 Omni](/models/openai/gpt-4o)に続くOpenAIの最新モデルであり、テキストと画像の両方の入力をサポートし、テキスト出力を提供します。 最も高度な小規模モデルとして、他の最近のフロンティアモデルよりも何倍も安価であり、[GPT-3.5 Turbo](/models/openai/gpt-3.5-turbo)よりも60%以上安くなっています。最先端の知能を維持しながら、大幅にコスト効率が向上しています。 GPT-4o miniはMMULUで82%のスコアを達成し、現在[一般的なリーダーボード](https://arena.lmsys.org/)のチャット選好度でGPT-4を上回っています。 詳細については、[ローンチアナウンスメント](https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/)をご確認ください。 #マルチモーダル
GPT-4 Turbo
openai/gpt-4-turbo最新のGPT-4 Turboモデル(ビジョン機能付き)。ビジョンリクエストはJSONモードと関数呼び出しを使用できるようになりました。 トレーニングデータ:2023年12月まで。
GPT-4 Turbo (older v1106)
openai/gpt-4-1106-preview最新のGPT-4 Turboモデルはビジョン機能を備えています。ビジョンリクエストはJSONモードと関数呼び出しを使用できるようになりました。 トレーニングデータ:2023年4月までのデータ。
GPT-5
openai/gpt-5GPT-5はOpenAIの最も高度なモデルであり、推論、コード品質、ユーザー体験における大幅な改善を提供しています。複雑なタスク、段階的な推論、指示の遵守、および高リスク使用例における精度が必要なタスクに最適化されています。テスト時ルーティング機能と高度なプロンプト理解をサポートしており、「これについて深く考えてほしい」といったユーザーが指定した意図を含みます。改善点には、幻覚の削減、追従性の低下、およびコーディング、執筆、健康関連タスクにおけるパフォーマンスの向上が含まれます。
GPT-5.1
openai/gpt-5.1GPT-5.1はGPT-5シリーズの最新フロンティアグレードモデルであり、GPT-5と比べてより強力な汎用推論、改善された指示遵守、より自然な会話スタイルを提供します。適応的推論を使用して計算を動的に配分し、単純なクエリには迅速に対応しながら、複雑なタスクにはより深い思考を費やします。このモデルは、技術的または複数ステップの問題であっても理解しやすいように、より明確で根拠のある説明を生成し、専門用語を削減しています。 幅広いタスク対応を目指して構築されたGPT-5.1は、数学、コーディング、構造化分析ワークロード全体で一貫した改善をもたらし、より一貫性のある長文回答と改善されたツール使用の信頼性を備えています。また、洗練された会話アライメント機能を備えており、精度を損なうことなく、より温かみのある直感的な応答を実現します。GPT-5.1はGPT-5の主要な完全機能後継モデルとして機能します。
GPT-5.1 Chat
openai/gpt-5.1-chatGPT-5.1 Chat(別名Instant)は、5.1ファミリーの高速で軽量なメンバーであり、低遅延チャットに最適化されながら、強力な汎用知能を保持しています。適応的推論を使用して、より難しいクエリに対して選択的に「思考」し、数学、コーディング、および多段階タスクの精度を向上させます。通常の会話を遅くすることはありません。このモデルはデフォルトではより温かみがあり、より会話的であり、命令追従性が向上し、短形式推論がより安定しています。GPT-5.1 Chatは、応答性と一貫性が深い熟考よりも重要な、高スループット対話型ワークロード向けに設計されています。
GPT-5.1-Codex
openai/gpt-5.1-codexGPT-5.1-Codexはソフトウェアエンジニアリングとコーディングワークフロー向けに最適化されたGPT-5.1の特殊版です。インタラクティブな開発セッションと複雑なエンジニアリングタスクの長時間にわたる独立実行の両方に対応するよう設計されています。このモデルは、プロジェクトのゼロからの構築、機能開発、デバッグ、大規模なリファクタリング、およびコードレビューをサポートしています。GPT-5.1と比較して、Codexはより操作性に優れ、開発者の指示に厳密に従い、よりクリーンで高品質なコード出力を生成します。推論努力は`reasoning.effort`パラメータで調整できます。[ドキュメントはこちら](https://openrouter.ai/docs/use-cases/reasoning-tokens#reasoning-effort-level)を参照してください。 Codexはコマンドラインインターフェース、IDE拡張機能、GitHub、クラウドタスクなどの開発環境に統合されます。推論努力を動的に適応させ、小規模なタスクには高速な応答を提供しながら、大規模プロジェクトの数時間にわたる実行を継続します。このモデルは構造化されたコードレビューを実行するよう訓練されており、依存関係を推論してテストに対する動作を検証することで、重大な欠陥を検出します。また、UI開発用の画像やスクリーンショットなどのマルチモーダル入力をサポートし、検索、依存関係のインストール、環境セットアップ用のツール使用を統合しています。Codexは特にエージェント型コーディングアプリケーション向けに設計されています。
GPT-5.1-Codex-Max
openai/gpt-5.1-codex-maxGPT-5.1-Codex-Maxは、長時間実行される高コンテキストのソフトウェア開発タスク向けに設計されたOpenAIの最新エージェント型コーディングモデルです。更新された5.1推論スタックのバージョンに基づいており、ソフトウェアエンジニアリング、数学、研究にまたがるエージェント型ワークフローで訓練されています。 GPT-5.1-Codex-Maxは、開発ライフサイクル全体において、より高速なパフォーマンス、改善された推論、およびより高いトークン効率を提供します。
GPT-5.1-Codex-Mini
openai/gpt-5.1-codex-miniGPT-5.1-Codex-Miniは、GPT-5.1-Codexのより小さく高速なバージョンです。
GPT-5.2
openai/gpt-5.2GPT-5.2は、GPT-5シリーズの最新フロンティアグレードモデルであり、GPT-5.1と比較して、より強力なエージェント機能と長いコンテキスト性能を提供します。適応的推論を使用して計算を動的に配分し、単純なクエリには迅速に応答しながら、複雑なタスクにはより深い処理を費やします。 幅広いタスクカバレッジのために構築されたGPT-5.2は、数学、コーディング、科学、ツール呼び出しワークロード全体で一貫した改善をもたらし、より一貫性のある長文回答とツール使用の信頼性の向上を実現します。
GPT-5.2 Chat
openai/gpt-5.2-chatGPT-5.2 Chat(別名「Instant」)は5.2ファミリーの高速で軽量なメンバーで、低レイテンシーのチャットに最適化されながら、強力な汎用知能を保持しています。適応的推論を使用して、より難しいクエリに対して選択的に「思考」し、数学、コーディング、および多段階タスクの精度を向上させます。通常の会話を遅くすることはありません。このモデルはデフォルトではより温かみがあり、会話的で、指示に従う能力が向上し、短形式の推論がより安定しています。GPT-5.2 Chatは、応答性と一貫性が深い検討よりも重要である高スループット、インタラクティブなワークロード向けに設計されています。
GPT-5.2-Codex
openai/gpt-5.2-codexGPT-5.2-Codexは、ソフトウェアエンジニアリングとコーディングワークフロー向けに最適化されたGPT-5.1-Codexのアップグレード版です。インタラクティブな開発セッションと複雑なエンジニアリングタスクの長時間にわたる独立実行の両方に対応するよう設計されています。このモデルは、プロジェクトのゼロからの構築、機能開発、デバッグ、大規模なリファクタリング、およびコードレビューをサポートしています。GPT-5.1-Codexと比較して、5.2-Codexはより操作性に優れ、開発者の指示に厳密に従い、より清潔で高品質なコード出力を生成します。推論努力は`reasoning.effort`パラメータで調整できます。[ドキュメントはこちらをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#reasoning-effort-level) Codexは、CLI、IDE拡張機能、GitHub、クラウドタスクなどの開発者環境に統合されます。推論努力を動的に適応させ、小さなタスクには高速な応答を提供しながら、大規模なプロジェクト向けに数時間にわたる実行を維持します。このモデルは構造化されたコードレビューを実行するようにトレーニングされており、依存関係を推論し、テストに対する動作を検証することで重大な欠陥を検出します。また、UI開発向けの画像やスクリーンショットなどのマルチモーダル入力をサポートし、検索、依存関係のインストール、環境セットアップ用のツール使用を統合しています。Codexは、エージェント型コーディングアプリケーション専用に設計されています。
GPT-5.2 Pro
openai/gpt-5.2-proGPT-5.2 ProはOpenAIの最も高度なモデルであり、GPT-5 Proと比べてエージェントコーディングと長いコンテキストのパフォーマンスに大幅な改善をもたらします。段階的な推論、指示の遵守、および高リスクのユースケースにおける精度を必要とする複雑なタスクに最適化されています。テスト時ルーティング機能と高度なプロンプト理解をサポートしており、「これについて深く考えて」のようなユーザー指定の意図を含みます。改善点には、幻覚の削減、イエスマン的な傾向の削減、およびコーディング、執筆、健康関連のタスクにおけるパフォーマンスの向上が含まれます。
GPT-5.3 Chat
openai/gpt-5.3-chatGPT-5.3 Chatは、ChatGPTの最も使用されているモデルのアップデートで、日常会話をより滑らかに、より有用に、より直接的に役立つものにします。より正確な回答をより良い文脈化で提供し、会話の流れを妨げる不要な拒否、注釈、過度に慎重な表現を大幅に削減します。
GPT-5.3-Codex
openai/gpt-5.3-codexGPT-5.3-Codexは、OpenAIの最も高度なエージェント型コーディングモデルであり、GPT-5.2-Codexの最先端のソフトウェアエンジニアリング性能とGPT-5.2のより広い推論および専門知識能力を組み合わせています。SWE-Bench Proで最先端の結果を達成し、Terminal-Bench 2.0およびOSWorld-Verifiedで強力なパフォーマンスを発揮しており、マルチ言語コーディング、ターミナル習熟度、および実世界のコンピュータ使用スキルの向上を反映しています。このモデルは長時間実行されるツール使用ワークフロー用に最適化されており、実行中のインタラクティブなステアリングをサポートしており、複雑な開発タスク、デバッグ、デプロイメント、および反復的なプロダクト作業に適しています。 コーディングを超えて、GPT-5.3-Codexはドキュメント作成、スプレッドシート分析、スライド作成、および複数のドメインにわたる運用研究などのタスクをサポートするGDPvalなどの構造化知識作業ベンチマークで強力なパフォーマンスを発揮します。脆弱性識別機能を含む強化されたサイバーセキュリティ認識で訓練され、高リスク使用例に対する追加のセーフガードとともにデプロイされています。以前のCodexモデルと比較して、より高いトークン効率を備えており、約25%高速であり、推論、実行、およびコンピュータインタラクションにわたるプロフェッショナルなエンドツーエンドワークフローを対象としています。
GPT-5.4
openai/gpt-5.4GPT-5.4はOpenAIの最新フロンティアモデルであり、CodexとGPTラインを単一システムに統合しています。100万トークン以上のコンテキストウィンドウ(入力922K、出力128K)を備え、テキストと画像入力をサポートしており、同じワークフロー内で高コンテキスト推論、コーディング、マルチモーダル分析を実現します。 このモデルは、コーディング、ドキュメント理解、ツール使用、および指示追従のパフォーマンスが向上しています。汎用タスクとソフトウェアエンジニアリングの両方に対する強力なデフォルトとして設計されており、本番品質のコードを生成し、複数のソースから情報を統合し、より少ない反復回数とより高いトークン効率で複雑なマルチステップワークフローを実行することができます。
GPT-5.4 Mini
openai/gpt-5.4-miniGPT-5.4 miniは、GPT-5.4のコア機能をより高速で効率的なモデルに統合し、高スループットのワークロードに最適化されています。テキストと画像の入力に対応し、推論、コーディング、ツール使用全般で強力なパフォーマンスを発揮しながら、大規模デプロイメントのレイテンシーとコストを削減します。 このモデルは、機能と効率のバランスを必要とする本番環境向けに設計されており、チャットアプリケーション、コーディングアシスタント、大規模に運用されるエージェントワークフローに最適です。GPT-5.4 miniは、信頼性の高い指示追従、堅牢なマルチステップ推論、多様なタスク全般での一貫したパフォーマンスを提供し、コスト効率を向上させています。
GPT-5.4 Nano
openai/gpt-5.4-nanoGPT-5.4 nanoはGPT-5.4ファミリーの中で最も軽量でコスト効率に優れたバリアントであり、速度が重要で大量のタスクに最適化されています。テキストと画像の入力に対応し、分類、データ抽出、ランキング、サブエージェント実行などの低レイテンシーユースケース向けに設計されています。 このモデルは深い推論よりも応答性と効率を優先するため、スケールで高速で信頼性の高い出力を必要とするパイプラインに理想的です。GPT-5.4 nanoはバックグラウンドタスク、リアルタイムシステム、およびコストとレイテンシーの最小化が不可欠な分散エージェントアーキテクチャに適しています。
GPT-5.4 Pro
openai/gpt-5.4-proGPT-5.4 ProはOpenAIの最も高度なモデルであり、GPT-5.4の統一されたアーキテクチャに基づいて構築され、複雑で重大なタスク向けに推論能力を強化しています。100万トークン以上のコンテキストウィンドウ(入力922K、出力128K)を備え、テキストと画像入力に対応しています。段階的な推論、指示の遵守、および精度に最適化されており、GPT-5.4 Proはエージェント型コーディング、長文脈ワークフロー、および複数ステップの問題解決に優れています。
GPT-5 Chat
openai/gpt-5-chatGPT-5 Chatは、エンタープライズアプリケーション向けの高度で自然、マルチモーダル、コンテキスト認識型の会話用に設計されています。
GPT-5 Mini
openai/gpt-5-miniGPT-5 Miniは、GPT-5のコンパクト版で、軽量の推論タスクを処理するように設計されています。GPT-5と同じ指示追従と安全性チューニングの利点を提供しますが、レイテンシーとコストが削減されています。GPT-5 MiniはOpenAIのo4-miniモデルの後継です。
GPT-5 Nano
openai/gpt-5-nanoGPT-5-Nanoは、GPT-5システムにおける最小かつ最速のバリアントであり、開発者ツール、迅速なインタラクション、および超低遅延環境向けに最適化されています。より大規模な同等製品と比べて推論の深さは限定的ですが、主要な指示追従機能とセーフティ機能を保持しています。GPT-4.1-nanoの後継製品であり、コスト効率的またはリアルタイムアプリケーション向けの軽量オプションを提供します。
gpt-oss-120b
openai/gpt-oss-120bgpt-oss-120bは、OpenAIが開発した、高度な推論、エージェント機能、および汎用本番用途向けに設計された、オープンウェイト117Bパラメータの混合エキスパート(MoE)言語モデルです。フォワードパスごとに5.1Bパラメータをアクティベートし、ネイティブMXFP4量子化により単一のH100 GPUで実行するよう最適化されています。このモデルは、設定可能な推論深度、完全な思考の連鎖へのアクセス、および関数呼び出し、ブラウジング、構造化出力生成を含むネイティブツール使用をサポートしています。
gpt-oss-120b (exacto)
openai/gpt-oss-120b:exactogpt-oss-120bはOpenAIの開放重み付け、117Bパラメータの混合専門家(MoE)言語モデルで、高度な推論、エージェント的、および汎用本番用途向けに設計されています。フォワードパスごとに5.1Bパラメータをアクティベートし、ネイティブMXFP4量子化を備えた単一H100 GPUで実行するよう最適化されています。このモデルは、設定可能な推論深度、完全な思考の連鎖へのアクセス、および関数呼び出し、ブラウジング、構造化出力生成を含むネイティブツール使用をサポートしています。
gpt-oss-120b (free)
openai/gpt-oss-120b:freegpt-oss-120bはOpenAIが開発したオープンウェイト、117Bパラメータの混合専門家(MoE)言語モデルで、高度な推論、エージェント的、および汎用的な本番用途向けに設計されています。フォワードパスあたり5.1Bパラメータをアクティベートし、ネイティブMXFP4量子化を備えた単一H100 GPUで実行するように最適化されています。このモデルは、設定可能な推論深度、完全な思考の連鎖へのアクセス、および関数呼び出し、ブラウジング、構造化出力生成を含むネイティブツール使用をサポートしています。
gpt-oss-20b
openai/gpt-oss-20bgpt-oss-20bはOpenAIがApache 2.0ライセンスの下でリリースしたオープンウェイト21Bパラメータモデルです。Mixture-of-Experts(MoE)アーキテクチャを採用しており、フォワードパスあたり3.6B個のアクティブパラメータを備えており、低レイテンシ推論とコンシューマーまたは単一GPU ハードウェアへのデプロイメント向けに最適化されています。このモデルはOpenAIのHarmonyレスポンス形式で学習され、推論レベル設定、ファインチューニング、および関数呼び出し、ツール使用、構造化出力を含むエージェント機能をサポートしています。
gpt-oss-20b (free)
openai/gpt-oss-20b:freegpt-oss-20bはOpenAIがApache 2.0ライセンスの下でリリースしたオープンウェイトの21Bパラメータモデルです。Mixture-of-Experts(MoE)アーキテクチャを採用しており、フォワードパスあたり3.6B個のアクティブパラメータを持ち、低レイテンシ推論とコンシューマーまたは単一GPU ハードウェアへのデプロイメント向けに最適化されています。このモデルはOpenAIのHarmonyレスポンス形式で訓練されており、推論レベルの設定、ファインチューニング、関数呼び出し、ツール使用、構造化出力を含むエージェント機能をサポートしています。
Grok 3
x-ai/grok-3Grok 3はxAIの最新モデルです。エンタープライズユースケース(データ抽出、コーディング、テキスト要約など)に優れた旗艦モデルです。金融、医療、法律、科学における深い専門知識を備えています。
Grok 3 Mini
x-ai/grok-3-mini軽量モデルで、応答する前に考えます。高速でスマート、深い専門知識を必要としない論理ベースのタスクに最適です。生の思考トレースにアクセスできます。
Grok 3 Mini Beta
x-ai/grok-3-mini-betaGrok 3 Miniは軽量で小型の思考モデルです。従来のモデルが即座に回答を生成するのとは異なり、Grok 3 Miniは応答する前に考えます。推論が必要で広範なドメイン知識を必要としないタスクに最適であり、数学固有の定量的なユースケース(難しいパズルや数学問題の解決など)で優れています。 透明な「思考」トレースにアクセス可能です。デフォルトでは低い推論に設定されており、`reasoning: { effort: "high" }`設定でブーストできます。 注:このモデルには2つのxAIエンドポイントがあります。デフォルトでこのモデルを使用する場合、常にベースエンドポイントにルーティングされます。高速エンドポイントが必要な場合は、`provider: { sort: throughput}`を追加してスループットで並べ替えることができます。
Grok 4
x-ai/grok-4Grok 4はxAIの最新の推論モデルで、256kのコンテキストウィンドウを備えています。並列ツール呼び出し、構造化出力、画像とテキスト入力の両方をサポートしています。推論は公開されておらず、推論を無効にすることはできず、推論の努力を指定することはできないことに注意してください。特定のリクエストの総トークン数が128kトークンを超えると、価格が上昇します。詳細については、[xAI docs](https://docs.x.ai/docs/models/grok-4-0709)を参照してください。
Grok 4.1 Fast
x-ai/grok-4.1-fastGrok 4.1 FastはxAIの最高のエージェント型ツール呼び出しモデルで、カスタマーサポートや深い調査などの実世界のユースケースで優れています。2Mコンテキストウィンドウ。 推論はAPIの`reasoning` `enabled`パラメータを使用して有効/無効にできます。[詳細はドキュメントをご覧ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#controlling-reasoning-tokens)
Grok 4.20 Beta
x-ai/grok-4.20-betaGrok 4.20 BetaはxAIの最新フラッグシップモデルで、業界トップクラスの速度とエージェント型ツール呼び出し機能を備えています。市場で最も低いハルシネーション率と厳密なプロンプト準拠を組み合わせ、一貫して正確で真実性の高い応答を提供します。 推論はAPIの`reasoning` `enabled`パラメータを使用して有効/無効にできます。[ドキュメントで詳細をご確認ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#controlling-reasoning-tokens)
Grok 4 Fast
x-ai/grok-4-fastGrok 4 FastはxAIの最新マルチモーダルモデルで、最先端のコスト効率性と200万トークンのコンテキストウィンドウを備えています。推論なしと推論ありの2つのバージョンがあります。モデルの詳細については、xAIの[ニュース記事](http://x.ai/news/grok-4-fast)をご覧ください。 推論はAPIの`reasoning` `enabled`パラメータを使用して有効/無効にできます。[ドキュメントで詳細をご確認ください](https://openrouter.ai/docs/use-cases/reasoning-tokens#controlling-reasoning-tokens)
Grok Code Fast 1
x-ai/grok-code-fast-1Grok Code Fast 1は、エージェント型コーディングに優れた高速で経済的な推論モデルです。レスポンスに推論トレースが表示されるため、開発者はGrok Codeを高品質なワークフローに導くことができます。
INTELLECT-3
prime-intellect/intellect-3INTELLECT-3は、GLM-4.5-Air-Baseから教師あり微調整(SFT)と大規模強化学習(RL)を用いてポスト学習された106Bパラメータの混合専門家モデル(12B活性)です。数学、コード、科学、一般的な推論において、そのサイズに対して最先端のパフォーマンスを提供し、多くのより大規模なフロンティアモデルを一貫して上回っています。強力な多段階問題解決のために設計されており、MoEアーキテクチャのおかげで、構造化タスクの高い精度を維持しながら、推論時の効率性を保っています。
KAT-Coder-Pro V1
kwaipilot/kat-coder-proKAT-Coder-Pro V1は、KwaiKATの最も高度なエージェント型コーディングモデルであり、KAT-Coderシリーズの一部です。エージェント型コーディングタスク専用に設計されており、SWE-Bench Verifiedベンチマークで73.4%の解決率を達成し、実世界のソフトウェアエンジニアリングシナリオで優れた性能を発揮します。 このモデルは、ツール使用機能、マルチターンインタラクション、指示追従、汎化、および包括的な機能に最適化されており、中間学習、教師あり微調整(SFT)、強化微調整(RFT)、およびスケーラブルなエージェント型RLを含むマルチステージの学習プロセスを通じて実現されています。
Kimi K2 0711
moonshotai/kimi-k2Kimi K2 Instruct は、Moonshot AI によって開発された大規模なMixture-of-Experts(MoE)言語モデルであり、総パラメータ数1兆個、フォワードパスあたり320億個のアクティブパラメータを備えています。エージェント機能に最適化されており、高度なツール使用、推論、コード合成を含みます。Kimi K2 は、特にコーディング(LiveCodeBench、SWE-bench)、推論(ZebraLogic、GPQA)、ツール使用(Tau2、AceBench)タスクにおいて、幅広いベンチマークで優れた性能を発揮します。128K トークンまでの長文脈推論に対応しており、大規模 MoE トレーニングの安定化のための MuonClip オプティマイザを含む革新的なトレーニングスタックで設計されています。
Kimi K2 0905
moonshotai/kimi-k2-0905Kimi K2 0905は[Kimi K2 0711](moonshotai/kimi-k2)の9月アップデートです。Moonshot AIが開発した大規模なMixture-of-Experts(MoE)言語モデルで、総パラメータ数1兆、フォワードパスあたりのアクティブパラメータ数320億を特徴としています。前回の128kから拡張された256kトークンまでの長文脈推論に対応しています。 このアップデートは、エージェント型コーディングの精度向上とスキャフォルド全体での汎化性能の改善、およびウェブ、3D、関連タスク向けのより美的で機能的な出力を備えたフロントエンドコーディングの強化を実現しています。Kimi K2はエージェント型機能に最適化されており、高度なツール使用、推論、コード合成を含みます。コーディング(LiveCodeBench、SWE-bench)、推論(ZebraLogic、GPQA)、ツール使用(Tau2、AceBench)ベンチマークで優れた性能を発揮します。このモデルは、安定した大規模MoEトレーニング用のMuonClipオプティマイザーを組み込んだ新規スタックでトレーニングされています。
Kimi K2.5
moonshotai/kimi-k2.5Kimi K2.5は、Moonshot AIのネイティブマルチモーダルモデルであり、最先端のビジュアルコーディング機能と自己指向型エージェントスウォームパラダイムを提供します。Kimi K2をベースに、約15Tの混合ビジュアルおよびテキストトークンを用いた継続的な事前学習により構築されており、一般的な推論、ビジュアルコーディング、およびエージェンティックツール呼び出しにおいて強力なパフォーマンスを発揮します。
Kimi K2 Thinking
moonshotai/kimi-k2-thinkingKimi K2 Thinkingは、Moonshot AIの最も高度なオープンリーズニングモデルであり、K2シリーズをエージェント的で長期的なリーズニングへと拡張しています。Kimi K2で導入された兆規模のMixture-of-Experts(MoE)アーキテクチャに基づいており、フォワードパスごとに320億パラメータを活性化し、256kトークンのコンテキストウィンドウをサポートしています。このモデルは、段階的な思考の持続、動的なツール呼び出し、および数百ターンにわたる複雑なリーズニングワークフローに最適化されています。段階的なリーズニングとツール使用をインターリーブすることで、自律的な研究、コーディング、および数百の連続的なアクションを漂流なく継続できる執筆を実現します。 HLE、BrowseComp、SWE-Multilingual、およびLiveCodeBenchでオープンソースの新しいベンチマークを設定しながら、200~300のツール呼び出しを通じて安定したマルチエージェント動作を維持しています。MuonClip最適化を備えた大規模MoEアーキテクチャに基づいており、強力なリーズニング深度と高い推論効率を組み合わせて、要求の厳しいエージェント的および分析的タスクに対応します。
Llama 3.1 405B (base)
meta-llama/llama-3.1-405bMetaの最新モデルクラス(Llama 3.1)は、様々なサイズとバリエーションで発表されました。これはベースとなる405B事前学習版です。 人間による評価において、主要なクローズドソースモデルと比較して強いパフォーマンスを示しています。 モデルリリースについて詳しく知るには、[こちらをクリック](https://ai.meta.com/blog/meta-llama-3/)してください。このモデルの使用は[Metaの利用可能ポリシー](https://llama.meta.com/llama3/use-policy/)の対象となります。
Llama 3.1 405B Instruct
meta-llama/llama-3.1-405b-instruct待望の400Bクラスの Llama3 がついに登場しました!128k のコンテキストと印象的な評価スコアを備えており、Meta AI チームはオープンソース LLM の最前線を押し進め続けています。 Meta の最新モデルクラス(Llama 3.1)は、様々なサイズとバリエーションで発表されました。この 405B インストラクションチューニング版は、高品質な対話ユースケースに最適化されています。 GPT-4o や Claude 3.5 Sonnet を含む主要なクローズドソースモデルと比較して、評価において強力なパフォーマンスを発揮しています。 モデルリリースの詳細については、[こちらをクリック](https://ai.meta.com/blog/meta-llama-3-1/)してください。このモデルの使用は [Meta の利用可能ポリシー](https://llama.meta.com/llama3/use-policy/)に従うものとします。
Llama 3.1 70B Instruct
meta-llama/llama-3.1-70b-instructMetaの最新モデルクラス(Llama 3.1)は、様々なサイズとバリエーションでリリースされました。この70Bのインストラクションチューニング版は、高品質な対話ユースケースに最適化されています。 人間による評価において、主要なクローズドソースモデルと比較して強いパフォーマンスを示しています。 モデルリリースの詳細については、[こちらをクリック](https://ai.meta.com/blog/meta-llama-3-1/)してください。このモデルの使用は[Metaの利用可能ポリシー](https://llama.meta.com/llama3/use-policy/)の対象となります。
Llama 3.1 8B Instruct
meta-llama/llama-3.1-8b-instructMetaの最新モデルクラス(Llama 3.1)は、様々なサイズとバリエーションでリリースされました。この8Bの指示チューニング版は、高速で効率的です。 人間による評価では、主要なクローズドソースモデルと比較して強いパフォーマンスを示しています。 モデルリリースの詳細については、[こちらをクリック](https://ai.meta.com/blog/meta-llama-3-1/)してください。このモデルの使用は[Metaの利用可能ポリシー](https://llama.meta.com/llama3/use-policy/)の対象となります。
Llama 3.1 Nemotron 70B Instruct
nvidia/llama-3.1-nemotron-70b-instructNVIDIAのLlama 3.1 Nemotron 70Bは、正確で有用な応答を生成するために設計された言語モデルです。[Llama 3.1 70Bアーキテクチャ](/models/meta-llama/llama-3.1-70b-instruct)と人間フィードバックからの強化学習(RLHF)を活用し、自動アライメントベンチマークで優れた性能を発揮します。このモデルは、有用性と応答生成の高い精度が必要なアプリケーション向けに調整されており、複数の領域にわたる多様なユーザークエリに適しています。 このモデルの使用は、[Metaの利用可能ポリシー](https://www.llama.com/llama3/use-policy/)の対象となります。
Llama 3.1 Nemotron Ultra 253B v1
nvidia/llama-3.1-nemotron-ultra-253b-v1Llama-3.1-Nemotron-Ultra-253B-v1は、高度な推論、人間とのインタラクティブなチャット、検索拡張生成(RAG)、およびツール呼び出しタスクに最適化された大規模言語モデル(LLM)です。Meta のLlama-3.1-405B-Instruct から派生しており、ニューラルアーキテクチャサーチ(NAS)を使用して大幅にカスタマイズされており、効率の向上、メモリ使用量の削減、推論レイテンシの改善が実現されています。このモデルは最大128Kトークンのコンテキスト長をサポートし、8x NVIDIA H100ノード上で効率的に動作できます。 注:推論を有効にするには、システムプロンプトに「detailed thinking on」を含める必要があります。詳細については、[使用上の推奨事項](https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1#quick-start-and-usage-recommendations)を参照してください。
Llama 3.2 1B Instruct
meta-llama/llama-3.2-1b-instructLlama 3.2 1Bは、10億パラメータの言語モデルで、要約、対話、多言語テキスト分析などの自然言語タスクを効率的に実行することに焦点を当てています。小さいサイズにより、低リソース環境で効率的に動作しながら、強力なタスク性能を維持できます。 8つのコア言語をサポートし、さらに多くの言語に微調整可能なLlama 1.3Bは、大規模モデルの高い計算需要なしに、多様な多言語設定で動作できる軽量でありながら強力なAIソリューションを求めるビジネスや開発者に最適です。 [元のモデルカード](https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md)はこちらをクリックしてください。 このモデルの使用は、[Metaの利用可能ポリシー](https://www.llama.com/llama3/use-policy/)の対象となります。
Llama 3.2 3B Instruct
meta-llama/llama-3.2-3b-instructLlama 3.2 3Bは、30億のパラメータを持つ多言語大規模言語モデルで、対話生成、推論、要約などの高度な自然言語処理タスク向けに最適化されています。最新のトランスフォーマーアーキテクチャで設計され、英語、スペイン語、ヒンディー語を含む8つの言語をサポートしており、追加言語にも対応可能です。 9兆トークンで学習されたLlama 3.2 3Bモデルは、指示への従従性、複雑な推論、ツール使用に優れています。バランスの取れたパフォーマンスにより、多言語設定でのテキスト生成における精度と効率を必要とするアプリケーションに最適です。 [オリジナルモデルカード](https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md)はこちらをクリックしてください。 このモデルの使用は、[Metaの利用可能ポリシー](https://www.llama.com/llama3/use-policy/)の対象となります。
Llama 3.2 3B Instruct (free)
meta-llama/llama-3.2-3b-instruct:freeLlama 3.2 3Bは、30億個のパラメータを持つ多言語大規模言語モデルで、対話生成、推論、要約などの高度な自然言語処理タスクに最適化されています。最新のトランスフォーマーアーキテクチャで設計されており、英語、スペイン語、ヒンディー語を含む8つの言語をサポートし、追加言語にも対応可能です。 9兆トークンで学習されたLlama 3.2 3Bモデルは、指示の遵守、複雑な推論、ツール使用に優れています。バランスの取れたパフォーマンスにより、多言語設定でのテキスト生成において精度と効率を必要とするアプリケーションに最適です。 [オリジナルモデルカード](https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md)はこちらをクリックしてください。 このモデルの使用は[Metaの利用可能ポリシー](https://www.llama.com/llama3/use-policy/)の対象となります。
Llama 3.3 70B Instruct
meta-llama/llama-3.3-70b-instructMeta Llama 3.3マルチリンガル大規模言語モデル(LLM)は、70B(テキスト入力/テキスト出力)の事前学習および命令チューニングされた生成モデルです。Llama 3.3命令チューニングテキストのみモデルは、マルチリンガル対話ユースケースに最適化されており、一般的な業界ベンチマークで利用可能なオープンソースおよびクローズドチャットモデルの多くを上回ります。 対応言語:英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。 [モデルカード](https://github.com/meta-llama/llama-models/blob/main/models/llama3_3/MODEL_CARD.md)
Llama 3.3 70B Instruct (free)
meta-llama/llama-3.3-70b-instruct:freeMeta Llama 3.3マルチリンガル大規模言語モデル(LLM)は、70B(テキスト入力/テキスト出力)の事前学習および命令チューニングされた生成モデルです。Llama 3.3命令チューニングテキストのみモデルは、マルチリンガル対話ユースケースに最適化されており、一般的な業界ベンチマークで利用可能なオープンソースおよびクローズドチャットモデルの多くを上回ります。 対応言語:英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語。 [モデルカード](https://github.com/meta-llama/llama-models/blob/main/models/llama3_3/MODEL_CARD.md)
Llama 3.3 Nemotron Super 49B V1.5
nvidia/llama-3.3-nemotron-super-49b-v1.5Llama-3.3-Nemotron-Super-49Bv1.5は、Meta のLlama-3.3-70B-Instructから派生した49Bパラメータの英語中心の推論/チャットモデルで、128Kのコンテキストウィンドウを備えています。数学、コード、科学、マルチターンチャットにわたるSFTを通じてエージェントワークフロー(RAG、ツール呼び出し)用に後学習され、その後複数のRL段階が続きます。報酬認識選好最適化(RPO)によるアライメント、段階的推論のための検証可能な報酬によるRL(RLVR)、およびツール使用動作を洗練させるための反復的DPOです。蒸留駆動型ニューラルアーキテクチャサーチ(「Puzzle」)は、いくつかのアテンションブロックを置き換え、FFN幅を変動させてメモリフットプリントを縮小し、スループットを向上させ、命令追従とCoT品質を保持しながら単一GPU(H100/H200)デプロイメントを可能にします。 内部評価(NeMo-Skills、最大16回実行、温度=0.6、top_p=0.95)では、このモデルは強力な推論/コーディング結果を報告しています。例えば、MATH500パス@1=97.4、AIME-2024=87.5、AIME-2025=82.71、GPQA=71.97、LiveCodeBench(24.10–25.02)=73.58、MMLU-Pro(CoT)=79.53です。このモデルは、Transformers/vLLMサポートと明示的な「推論オン/オフ」モード(チャット優先デフォルト、無効時はグリーディ推奨)を備えた実用的な推論効率(高トークン/秒、削減されたVRAM)を目指しています。バランスの取れた精度対コストと信頼性の高いツール使用が重要なエージェント、アシスタント、および長いコンテキスト検索システムの構築に適しています。
Llama 3 70B Instruct
meta-llama/llama-3-70b-instructMetaの最新モデルクラス(Llama 3)は、様々なサイズとバリエーションでリリースされました。この70Bのインストラクションチューニング版は、高品質な対話ユースケースに最適化されています。 人間による評価において、主要なクローズドソースモデルと比較して強いパフォーマンスを示しています。 モデルリリースの詳細については、[こちらをクリック](https://ai.meta.com/blog/meta-llama-3/)してください。このモデルの使用は[Metaの利用可能ポリシー](https://llama.meta.com/llama3/use-policy/)の対象となります。
Llama 3 8B Instruct
meta-llama/llama-3-8b-instructMetaの最新モデルクラス(Llama 3)は、様々なサイズとバリエーションで発表されました。この8Bの指示チューニング版は、高品質な対話ユースケースに最適化されています。 人間による評価では、主要なクローズドソースモデルと比較して強いパフォーマンスを示しています。 モデルリリースの詳細については、[こちらをクリック](https://ai.meta.com/blog/meta-llama-3/)してください。このモデルの使用は[Metaの利用可能ポリシー](https://llama.meta.com/llama3/use-policy/)の対象となります。
Llama 4 Maverick
meta-llama/llama-4-maverickLlama 4 Maverick 17B Instruct (128E)はMetaの高容量マルチモーダル言語モデルで、128個のエキスパートと1フォワードパスあたり170億個のアクティブパラメータ(合計400B)を備えた混合エキスパート(MoE)アーキテクチャに基づいて構築されています。多言語テキストと画像入力をサポートし、12の対応言語にわたって多言語テキストとコード出力を生成します。ビジョン言語タスクに最適化されており、Maverickはアシスタントのような動作、画像推論、および一般的なマルチモーダルインタラクション用に命令チューニングされています。 Maverickは、ネイティブマルチモーダル性のための早期融合と100万トークンのコンテキストウィンドウを備えています。公開、ライセンス、およびMetaプラットフォームデータの厳選された混合で訓練され、約22兆トークンをカバーし、知識カットオフは2024年8月です。2025年4月5日にLlama 4コミュニティライセンスの下でリリースされたMaverickは、高度なマルチモーダル理解と高いモデルスループットを必要とする研究および商用アプリケーションに適しています。
Llama 4 Scout
meta-llama/llama-4-scoutLlama 4 Scout 17B Instruct (16E)はMetaによって開発されたMixture-of-Experts (MoE)言語モデルで、合計109Bのうち170億パラメータをアクティベートします。テキストと画像のネイティブマルチモーダル入力と、12の対応言語にわたるマルチリンガル出力(テキストとコード)をサポートしています。アシスタントスタイルのインタラクションと視覚的推論用に設計されており、Scoutは1回のフォワードパスあたり16個のエキスパートを使用し、1000万トークンのコンテキスト長を備えており、約40兆トークンの学習コーパスを持っています。 高い効率性とローカルまたは商用デプロイメント向けに構築されたLlama 4 Scoutは、シームレスなモダリティ統合のための早期融合を組み込んでいます。マルチリンガルチャット、キャプション生成、画像理解タスクでの使用に向けて命令チューニングされています。Llama 4 Community Licenseの下でリリースされ、2024年8月までのデータで最後に学習され、2025年4月5日に公開されました。
LLM-jp 3.1 8x13B Instruct4
llm-jp/llm-jp-3.1-8x13b-instruct4国立情報学研究所(NII)によって開発されたMixture-of-Experts命令チューニング型日本語言語モデル。総パラメータ数73B(アクティブ22B)で、日本語命令追従ベンチマークでGPT-4-0613のパフォーマンスを上回っています。
LongCat Flash Chat
meituan/longcat-flash-chatLongCat-Flash-Chatは、総パラメータ数560Bの大規模Mixture-of-Experts(MoE)モデルであり、入力ごとに18.6B~31.3B(平均約27B)のパラメータが動的に活性化されます。通信オーバーヘッドを削減し、ハイパーパラメータ転送、決定論的計算、多段階最適化などの高度なスケーリング戦略を通じて訓練の安定性を維持しながら、高いスループットを実現するショートカット接続MoE設計を導入しています。 このリリースであるLongCat-Flash-Chatは、会話型およびエージェント型タスク向けに最適化された非思考型基盤モデルです。最大128Kトークンの長いコンテキストウィンドウに対応し、推論、コーディング、命令追従、ドメインベンチマーク全体で競争力のあるパフォーマンスを示しており、特にツール使用と複雑な多段階インタラクションに強みを持っています。
Mercury
inception/mercuryMercuryは最初の拡散大規模言語モデル(dLLM)です。革新的な離散拡散アプローチを適用することで、このモデルはGPT-4.1 NanoやClaude 3.5 Haikuなどの速度最適化モデルよりも5~10倍高速に実行されながら、同等のパフォーマンスを実現します。Mercuryの速度により、開発者はボイスエージェント、検索インターフェース、チャットボットなど、レスポンシブなユーザー体験を提供できます。詳細は[ブログ記事](https://www.inceptionlabs.ai/blog/introducing-mercury)をご覧ください。
Mercury 2
inception/mercury-2Mercury 2は非常に高速な推論LLMであり、最初の推論拡散LLM(dLLM)です。 トークンを順序立てて生成する代わりに、Mercury 2は複数のトークンを並列で生成・改善し、標準GPUで1秒あたり1,000トークン以上を実現します。Mercury 2は、Claude 4.5 HaikuやGPT 5 Miniなどの速度最適化LLMより5倍以上高速で、コストは大幅に削減されます。 Mercury 2は、調整可能な推論レベル、128Kコンテキスト、ネイティブツール使用、スキーマ準拠のJSON出力に対応しています。レイテンシが複合する開発ワークフロー、リアルタイム音声/検索、エージェントループ向けに構築されています。OpenAI API互換です。詳細は[ブログ投稿](https://www.inceptionlabs.ai/blog/introducing-mercury-2)をご覧ください。
Mercury Coder
inception/mercury-coderMercury Coderは初の拡散型大規模言語モデル(dLLM)です。革新的な離散拡散アプローチを適用することで、Claude 3.5 HaikuやGPT-4o Miniなどの速度最適化モデルと比べて5~10倍高速に動作しながら、同等のパフォーマンスを実現しています。Mercury Coderの高速性により、開発者はコーディング中に集中力を保ちながら、迅速なチャットベースの反復処理と応答性の高いコード補完提案を享受できます。Copilot Arenaでは、Mercury Coderは速度で1位、品質で2位と同点にランクされています。詳細は[こちらのブログ記事](https://www.inceptionlabs.ai/blog/introducing-mercury)をご覧ください。
MiMo-V2-Flash
xiaomi/mimo-v2-flashMiMo-V2-Flashはシャオミが開発したオープンソースの基盤言語モデルです。309B個の総パラメータと15B個のアクティブパラメータを持つMixture-of-Expertsモデルで、ハイブリッド注意メカニズムを採用しています。MiMo-V2-Flashはハイブリッド思考トグルと256Kのコンテキストウィンドウをサポートしており、推論、コーディング、エージェントシナリオに優れています。SWE-bench VerifiedおよびSWE-bench Multilingualでは、MiMo-V2-Flashは世界的にトップ#1のオープンソースモデルとしてランクされており、Claude Sonnet 4.5と同等のパフォーマンスを提供しながら、コストはわずか約3.5%です。 ユーザーは`reasoning` `enabled`ブール値を使用して推論動作を制御できます。[ドキュメントで詳細を確認してください](https://openrouter.ai/docs/use-cases/reasoning-tokens#enable-reasoning-with-default-config)。
MiMo-V2-Pro
xiaomi/mimo-v2-proMiMo-V2-Proはシャオミのフラッグシップ基盤モデルであり、1T以上の総パラメータと100万のコンテキスト長を備えており、エージェントシナリオに深く最適化されています。OpenClawなどの一般的なエージェントフレームワークに高度に適応可能です。標準的なPinchBenchおよびClawBenchベンチマークでグローバルトップティアにランクされており、認識されたパフォーマンスはOpus 4.6に近づいています。MiMo-V2-Proはエージェントシステムの脳として機能し、複雑なワークフローを調整し、本番エンジニアリングタスクを駆動し、確実に結果を提供するように設計されています。
MiniMax M1
minimax/minimax-m1MiniMax-M1は、拡張コンテキストと高効率推論のために設計された大規模なオープンウェイト推論モデルです。ハイブリッドMixture-of-Experts(MoE)アーキテクチャと、カスタム「ライトニングアテンション」メカニズムを組み合わせており、100万トークンまでの長いシーケンスを処理できると同時に、競争力のあるFLOP効率を維持しています。総パラメータ数4560億、トークンあたりのアクティブパラメータ459億のこのバリアントは、複雑で多段階の推論タスクに最適化されています。 カスタム強化学習パイプライン(CISPO)を通じて訓練されたM1は、長いコンテキストの理解、ソフトウェアエンジニアリング、エージェンティックツール使用、および数学的推論に優れています。ベンチマークはFullStackBench、SWE-bench、MATH、GPQA、およびTAU-Benchにわたって強力なパフォーマンスを示しており、DeepSeek R1やQwen3-235Bなどの他のオープンモデルを上回ることが多いです。
MiniMax M2
minimax/minimax-m2MiniMax-M2は、エンドツーエンドのコーディングとエージェントワークフロー向けに最適化されたコンパクトで高効率な大規模言語モデルです。100億の活性化パラメータ(総2,300億)を備えており、一般的な推論、ツール使用、マルチステップタスク実行全体で最先端に近いインテリジェンスを提供しながら、低レイテンシーと展開効率を維持しています。 このモデルはコード生成、マルチファイル編集、コンパイル実行修正ループ、テスト検証済み修復に優れており、SWE-Bench Verified、Multi-SWE-Bench、Terminal-Benchで強い結果を示しています。また、BrowseCompやGAIAなどのエージェント評価で競争力のあるパフォーマンスを発揮し、長期的な計画、検索、実行エラーからの回復を効果的に処理します。 [Artificial Analysis](https://artificialanalysis.ai/models/minimax-m2)によるベンチマーク結果では、MiniMax-M2は数学、科学、指示追従にわたる複合インテリジェンスのトップオープンソースモデルの中にランクされています。小さな活性化フットプリントにより、高速推論、高い同時実行性、改善されたユニットエコノミクスが実現され、大規模エージェント、開発者アシスタント、応答性とコスト効率が必要な推論駆動型アプリケーションに適しています。 このモデルのパフォーマンス低下を避けるため、MiniMaxはターン間で推論を保持することを強く推奨しています。当社の[ドキュメント](https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks)でreasoning_detailsを使用して推論を渡す方法について詳しく学んでください。
MiniMax M2.1
minimax/minimax-m2.1MiniMax-M2.1は、コーディング、エージェントワークフロー、および最新のアプリケーション開発に最適化された軽量で最先端の大規模言語モデルです。わずか100億のアクティブ化されたパラメータで、例外的なレイテンシ、スケーラビリティ、およびコスト効率を維持しながら、実世界の機能において大きな飛躍をもたらします。 前身と比較して、M2.1はより洗練された簡潔な出力と高速な知覚応答時間を提供します。主要なシステムおよびアプリケーション言語全体で業界をリードする多言語コーディングパフォーマンスを示し、Multi-SWE-Benchで49.4%、SWE-Bench Multilingualで72.5%を達成し、IDE、コーディングツール、および汎用支援のための多目的なエージェント「ブレイン」として機能します。 このモデルのパフォーマンスの低下を避けるため、MiniMaxは強くターン間の推論を保持することを推奨しています。ドキュメントでreasoning_detailsを使用して推論を返す方法の詳細をご確認ください。
MiniMax M2.5
minimax/minimax-m2.5MiniMax-M2.5は、実世界の生産性のために設計された最先端の大規模言語モデルです。複雑な実世界のデジタル作業環境の多様な範囲で訓練されたM2.5は、M2.1のコーディング専門知識を基盤として、一般的なオフィス業務へと拡張し、Word、Excel、PowerPointファイルの生成と操作における流暢性、多様なソフトウェア環境間でのコンテキスト切り替え、および異なるエージェントと人間チーム間での作業に達しています。SWE-Bench Verifiedで80.2%、Multi-SWE-Benchで51.3%、BrowseCompで76.3%を獲得しており、M2.5は計画を通じてアクションと出力を最適化するように訓練されており、前世代よりもトークン効率が高くなっています。
MiniMax M2.5 (free)
minimax/minimax-m2.5:freeMiniMax-M2.5は、実世界の生産性のために設計された最先端の大規模言語モデルです。複雑な実世界のデジタル作業環境の多様な範囲で訓練されたM2.5は、M2.1のコーディング専門知識を基盤として、一般的なオフィス作業に拡張され、Word、Excel、PowerPointファイルの生成と操作における流暢性、多様なソフトウェア環境間のコンテキスト切り替え、および異なるエージェントと人間のチーム間での作業に達しています。SWE-Bench Verifiedで80.2%、Multi-SWE-Benchで51.3%、BrowseCompで76.3%のスコアを獲得しており、M2.5は計画を通じてアクションと出力を最適化するように訓練されており、前世代よりもトークン効率が高くなっています。
MiniMax M2.7
minimax/minimax-m2.7MiniMax-M2.7は、自律的で現実世界の生産性と継続的な改善のために設計された次世代大規模言語モデルです。自らの進化に積極的に参加するために構築されたM2.7は、マルチエージェント協働を通じた高度なエージェント機能を統合し、動的環境全体で複雑なタスクを計画、実行、改善することを可能にします。 本番環境レベルのパフォーマンスのために訓練されたM2.7は、ライブデバッグ、根本原因分析、財務モデリング、およびWord、Excel、PowerPointにわたる完全なドキュメント生成などのワークフローを処理します。SWE-Proで56.2%、Terminal Bench 2で57.0%を含むベンチマークで強力な結果を提供し、GDPval-AAで1495 ELOを達成し、現実世界のデジタルワークフローで動作するマルチエージェントシステムの新しい標準を設定しています。
MiniMax M2-her
minimax/minimax-m2-herMiniMax M2-herは、没入型ロールプレイ、キャラクター駆動型チャット、表現力豊かなマルチターン会話のために構築された対話優先の大規模言語モデルです。トーン和人格の一貫性を保つように設計されており、豊富なメッセージロール(user_system、group、sample_message_user、sample_message_ai)をサポートし、サンプル対話から学習してシナリオのスタイルとペーシングをより適切に一致させることができます。これにより、自然な流れと鮮やかなインタラクションが重要なストーリーテリング、コンパニオン、会話体験に最適な選択肢となります。
Mistral 7B Instruct
mistralai/mistral-7b-instruct高性能で業界標準の73億パラメータモデルであり、速度とコンテキスト長に最適化されています。 *Mistral 7B Instructには複数のバージョンがあり、これは最新バージョンを意図しています。*
Mistral 7B Instruct v0.1
mistralai/mistral-7b-instruct-v0.17.3Bパラメータモデルで、すべてのベンチマークでLlama 2 13Bを上回るパフォーマンスを発揮し、速度とコンテキスト長に最適化されています。
Mistral 7B Instruct v0.3
mistralai/mistral-7b-instruct-v0.3高性能で業界標準の73億パラメータモデルで、速度とコンテキスト長に最適化されています。 [Mistral 7B Instruct v0.2](/models/mistralai/mistral-7b-instruct-v0.2)の改善版で、以下の変更が加えられています: - 語彙を32768に拡張 - v3トークナイザーに対応 - 関数呼び出しに対応 注:関数呼び出しのサポートはプロバイダーに依存します。
Mistral Large
mistralai/mistral-largeこれはMistral AIのフラッグシップモデルであるMistral Large 2(バージョン`mistral-large-2407`)です。プロプライエタリな重みが利用可能なモデルであり、推論、コード、JSON、チャットなどに優れています。ローンチアナウンスメントは[こちら](https://mistral.ai/news/mistral-large-2407/)でご覧ください。 フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、アラビア語、ヒンディー語、ロシア語、中国語、日本語、韓国語を含む数十の言語をサポートしており、Python、Java、C、C++、JavaScript、Bashを含む80以上のプログラミング言語に対応しています。その長いコンテキストウィンドウにより、大規模なドキュメントから正確な情報を取得することができます。
Mistral Large 2407
mistralai/mistral-large-2407これはMistral AIのフラッグシップモデル、Mistral Large 2(バージョンmistral-large-2407)です。プロプライエタリな重みが利用可能なモデルであり、推論、コード、JSON、チャットなどに優れています。ローンチアナウンスメントは[こちら](https://mistral.ai/news/mistral-large-2407/)でお読みください。 フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、アラビア語、ヒンディー語、ロシア語、中国語、日本語、韓国語を含む数十の言語をサポートしており、Python、Java、C、C++、JavaScript、Bashを含む80以上のプログラミング言語に対応しています。その長いコンテキストウィンドウにより、大規模なドキュメントから正確な情報を取得することができます。
Mistral Large 2411
mistralai/mistral-large-2411Mistral Large 2 2411は、[Pixtral Large 2411](/mistralai/pixtral-large-2411)と同時にリリースされた[Mistral Large 2](/mistralai/mistral-large)のアップデートです。 前の[Mistral Large 24.07](/mistralai/mistral-large-2407)から大幅にアップグレードされており、長いコンテキストの理解の向上、新しいシステムプロンプト、およびより正確な関数呼び出しが特徴です。
Mistral Large 3 2512
mistralai/mistral-large-2512Mistral Large 3 2512はMistralの最も高性能なモデルであり、41Bのアクティブパラメータ(合計675B)を備えたスパース混合専門家アーキテクチャを特徴とし、Apache 2.0ライセンスの下でリリースされています。
Mistral Medium 3
mistralai/mistral-medium-3Mistral Medium 3は、フロンティアレベルの機能を大幅に削減された運用コストで提供するように設計された、高性能なエンタープライズグレードの言語モデルです。最先端の推論とマルチモーダルパフォーマンスを従来の大規模モデルと比べて8倍低いコストで実現し、専門的および産業的なユースケース全体でのスケーラブルなデプロイメントに適しています。 このモデルはコーディング、STEM推論、エンタープライズ適応などの領域で優れています。ハイブリッド、オンプレミス、およびイン-VPCデプロイメントをサポートし、カスタムワークフローへの統合に最適化されています。Mistral Medium 3は、Claude Sonnet 3.5/3.7、Llama 4 Maverick、Command R+などのより大規模なモデルと比較して競争力のある精度を提供しながら、クラウド環境全体での幅広い互換性を維持しています。
Mistral Medium 3.1
mistralai/mistral-medium-3.1Mistral Medium 3.1は、Mistral Medium 3の更新版であり、大幅に削減された運用コストで最先端レベルの機能を提供するように設計された高性能なエンタープライズグレードの言語モデルです。最先端の推論とマルチモーダルパフォーマンスを、従来の大規模モデルと比べて8倍低いコストでバランスさせており、プロフェッショナルおよび産業用途全体でのスケーラブルなデプロイメントに適しています。 このモデルは、コーディング、STEM推論、エンタープライズ適応などの分野で優れています。ハイブリッド、オンプレミス、およびVPC内デプロイメントをサポートし、カスタムワークフローへの統合に最適化されています。Mistral Medium 3.1は、Claude Sonnet 3.5/3.7、Llama 4 Maverick、Command R+などのより大規模なモデルと比較して競争力のある精度を提供しながら、クラウド環境全体での幅広い互換性を維持しています。
Mistral Small 3
mistralai/mistral-small-24b-instruct-2501Mistral Small 3は、一般的なAIタスク全体で低レイテンシーパフォーマンスに最適化された24Bパラメータの言語モデルです。Apache 2.0ライセンスの下でリリースされており、効率的なローカルデプロイメント向けに設計された事前学習版と命令チューニング版の両方を備えています。 このモデルはMMULベンチマークで81%の精度を達成し、Llama 3.3 70BやQwen 32Bなどのより大規模なモデルと競争力のあるパフォーマンスを発揮しながら、同等のハードウェア上で3倍の速度で動作します。[モデルに関するブログ記事はこちらをご覧ください。](https://mistral.ai/news/mistral-small-3/)
Mistral Small 3.1 24B
mistralai/mistral-small-3.1-24b-instructMistral Small 3.1 24B Instructは、Mistral Small 3(2501)のアップグレード版で、240億のパラメータを備え、高度なマルチモーダル機能を搭載しています。テキストベースの推論とビジョンタスクにおいて最先端のパフォーマンスを提供し、画像分析、プログラミング、数学的推論、および数十の言語にわたる多言語サポートを含みます。広範な128kトークンのコンテキストウィンドウを備え、効率的なローカル推論に最適化されており、会話型エージェント、関数呼び出し、長文書の理解、およびプライバシーに配慮したデプロイメントなどのユースケースをサポートしています。更新版は[Mistral Small 3.2](mistralai/mistral-small-3.2-24b-instruct)です。
Mixtral 8x22B Instruct
mistralai/mixtral-8x22b-instructMistralの公式なinstruct微調整版[Mixtral 8x22B](/models/mistralai/mixtral-8x22b)です。141B個のパラメータのうち39B個のアクティブパラメータを使用しており、そのサイズに対して比類のないコスト効率を提供します。その強みには以下が含まれます: - 強力な数学、コーディング、推論能力 - 大規模なコンテキスト長(64k) - 英語、フランス語、イタリア語、ドイツ語、スペイン語の流暢性 ベンチマークについては、[こちら](https://mistral.ai/news/mixtral-8x22b/)のローンチアナウンスメントを参照してください。 #moe
Mixtral 8x7B Instruct
mistralai/mixtral-8x7b-instructMixtral 8x7B Instruct は、Mistral AI による事前学習済みの生成型スパース混合専門家モデルで、チャットと指示用途向けです。合計470億パラメータの8つの専門家(フィードフォワードネットワーク)を組み込んでいます。 Mistral によってファインチューニングされた指示モデル。#moe
Molmo2 8B
allenai/molmo-2-8bMolmo2-8Bは、Allen Institute for AI(Ai2)によって開発されたオープンなビジョン言語モデルで、Molmo2ファミリーの一部です。画像、ビデオ、および複数画像の理解とグラウンディングをサポートしています。Qwen3-8Bをベースとしており、ビジョンバックボーンとしてSigLIP 2を使用しています。短いビデオ、カウント、キャプショニングにおいて他のオープンウェイト、オープンデータモデルを上回るパフォーマンスを発揮しながら、長いビデオタスクでも競争力を保っています。
Nano Banana 2 (Gemini 3.1 Flash Image Preview)
google/gemini-3.1-flash-image-previewGemini 3.1 Flash Image Preview(別名「Nano Banana 2」)は、Googleの最新の最先端画像生成・編集モデルで、Flashスピードでプロレベルの視覚品質を提供します。高度なコンテキスト理解と高速で費用効率の良い推論を組み合わせており、複雑な画像生成と反復的な編集をより簡単にアクセスできるようにします。アスペクト比は[image_config APIパラメータ](https://openrouter.ai/docs/features/multimodal/image-generation#image-aspect-ratio-configuration)で制御できます。
Nano Banana (Gemini 2.5 Flash Image)
google/gemini-2.5-flash-imageGemini 2.5 Flash Image(別名「Nano Banana」)が一般公開されました。これは文脈理解を備えた最先端の画像生成モデルです。画像生成、編集、マルチターン会話に対応しています。アスペクト比は[image_config APIパラメータ](https://openrouter.ai/docs/features/multimodal/image-generation#image-aspect-ratio-configuration)で制御できます。
Nano Banana Pro (Gemini 3 Pro Image Preview)
google/gemini-3-pro-image-previewNano Banana Proは、Gemini 3 Proをベースに構築されたGoogleの最も高度な画像生成・編集モデルです。元のNano Bananaを大幅に改善し、マルチモーダル推論、現実世界への接地、高忠実度の視覚合成を実現しています。このモデルは、インフォグラフィックスや図表からシネマティックコンポジットまで、文脈に富んだグラフィックスを生成でき、検索グラウンディングを通じてリアルタイム情報を組み込むことができます。 業界をリードするテキストレンダリング機能(長いテキストやマルチリンガルレイアウトを含む)、一貫性のある複数画像のブレンディング、最大5つの被写体にわたる正確なアイデンティティ保持を提供します。Nano Banana Proは、ローカライズされた編集、ライティングとフォーカス調整、カメラ変換、2K/4K出力と柔軟なアスペクト比のサポートなど、細かい創造的コントロールを追加しています。プロフェッショナルグレードのデザイン、製品ビジュアライゼーション、ストーリーボード、複雑なマルチエレメント構成に対応するよう設計されながら、一般的な画像生成ワークフローにも効率的です。
Nemotron 3 Nano 30B A3B
nvidia/nemotron-3-nano-30b-a3bNVIDIA Nemotron 3 Nano 30B A3Bは、開発者が特化したエージェンティックAIシステムを構築するための、最高の計算効率と精度を備えた小規模言語MoEモデルです。 このモデルは完全にオープンであり、オープンウェイト、データセット、レシピを備えているため、開発者は最大限のプライバシーとセキュリティのために、モデルを簡単にカスタマイズ、最適化、および自社インフラストラクチャにデプロイできます。 注意:無料エンドポイントの場合、プロバイダーのモデルおよびその製品とサービスを改善するため、すべてのプロンプトと出力がログに記録されます。個人情報、機密情報、またはその他の機密情報をアップロードしないでください。これは試用のみです。本番環境またはビジネスクリティカルなシステムには使用しないでください。
Nemotron 3 Super
nvidia/nemotron-3-super-120b-a12bNVIDIA Nemotron 3 Superは、120BパラメータのオープンハイブリッドMoEモデルで、最大計算効率と複雑なマルチエージェントアプリケーションにおける精度のために、わずか12Bパラメータをアクティベートします。ハイブリッドMamba-TransformerMixture-of-Experts アーキテクチャとマルチトークン予測(MTP)に基づいており、主要なオープンモデルと比較して50%以上高いトークン生成を実現します。 このモデルは、長期的なエージェント一貫性、ドキュメント間推論、マルチステップタスク計画のための100万トークンのコンテキストウィンドウを備えています。潜在MoEにより、1つの推論コストで4つのエキスパートを呼び出すことができ、インテリジェンスと汎化性能を向上させます。10以上の環境にわたるマルチ環境強化学習トレーニングにより、AIME 2025、TerminalBench、SWE-Bench Verifiedを含むベンチマークで最高精度を実現します。 NVIDIA Open Licenseの下でウェイト、データセット、レシピが完全にオープンであり、Nemotron 3 Superはワークステーションからクラウドまで、どこでも簡単にカスタマイズでき、安全にデプロイできます。
Nova 2 Lite
amazon/nova-2-lite-v1Nova 2 Liteは、テキスト、画像、動画を処理してテキストを生成できる、日常的なワークロード向けの高速で費用対効果の高い推論モデルです。 Nova 2 Liteは、ドキュメント処理、動画からの情報抽出、コード生成、正確な根拠に基づいた回答の提供、および多段階のエージェントワークフローの自動化において、優れた機能を実証しています。
Nova Lite 1.0
amazon/nova-lite-v1Amazon Nova Lite 1.0は、Amazonが提供する非常に低コストのマルチモーダルモデルで、画像、動画、テキスト入力を高速に処理してテキスト出力を生成することに特化しています。Amazon Nova Liteは、リアルタイムの顧客対応、ドキュメント分析、視覚的質問応答タスクを高い精度で処理できます。 300Kトークンの入力コンテキストにより、単一の入力で複数の画像または最大30分の動画を分析できます。
Nova Micro 1.0
amazon/nova-micro-v1Amazon Nova Micro 1.0は、Amazon Novaモデルファミリーの中で最も低いレイテンシーの応答を提供するテキストのみのモデルであり、非常に低いコストで利用できます。128Kトークンのコンテキスト長を備え、速度とコストに最適化されたAmazon Nova Microは、テキスト要約、翻訳、コンテンツ分類、インタラクティブチャット、ブレーンストーミングなどのタスクに優れています。シンプルな数学的推論とコーディング能力を備えています。
Nova Pro 1.0
amazon/nova-pro-v1Amazon Nova Pro 1.0は、Amazonが開発した高性能なマルチモーダルモデルで、幅広いタスクに対して精度、速度、コストの組み合わせを提供することに焦点を当てています。2024年12月の時点で、視覚的質問応答(TextVQA)とビデオ理解(VATEX)を含む主要なベンチマークで最先端のパフォーマンスを達成しています。 Amazon Nova Proは、視覚情報とテキスト情報の両方を処理し、財務文書を分析する強力な能力を示しています。 **注記**:現在のところ、ビデオ入力はサポートされていません。
o1
openai/o1OpenAIの最新かつ最強のモデルファミリーであるo1は、応答する前により多くの時間をかけて考えるように設計されています。o1モデルシリーズは、大規模な強化学習によって訓練され、思考の連鎖を使用して推論します。 o1モデルは、数学、科学、プログラミング、およびその他のSTEM関連のタスクに最適化されています。物理学、化学、生物学のベンチマークにおいて、博士号レベルの精度を一貫して示しています。詳細は[ローンチアナウンスメント](https://openai.com/o1)をご覧ください。
o3
openai/o3o3は、複数の分野にわたってバランスの取れた強力なモデルです。数学、科学、コーディング、視覚推論タスクにおいて新しい基準を設定しています。また、技術文書作成と指示遵守においても優れています。テキスト、コード、画像にわたる分析を含む複数ステップの問題を考え抜くために使用してください。
o3 Mini
openai/o3-miniOpenAI o3-miniは、STEM推論タスクに最適化されたコスト効率的な言語モデルで、特に科学、数学、コーディングに優れています。 このモデルは`reasoning_effort`パラメータをサポートしており、「high」「medium」「low」に設定して、モデルの思考時間を制御できます。デフォルトは「medium」です。OpenRouterは、モデルスラッグ`openai/o3-mini-high`も提供しており、このパラメータをデフォルトで「high」に設定できます。 このモデルは3つの調整可能な推論努力レベルを備えており、関数呼び出し、構造化出力、ストリーミングを含む主要な開発者機能をサポートしていますが、ビジョン処理機能は含まれていません。 このモデルは前身モデルに比べて大幅な改善を示しており、専門家テスターはその応答を56%の確率で好み、複雑な質問での重大エラーが39%削減されたことが報告されています。中程度の推論努力設定では、o3-miniはAIMEやGPQAなどの難しい推論評価において、より大きなo1モデルのパフォーマンスに匹敵しながら、より低いレイテンシーとコストを維持しています。
o3 Mini High
openai/o3-mini-highOpenAI o3-mini-highは、reasoning_effortを高に設定した[o3-mini](/openai/o3-mini)と同じモデルです。 o3-miniは、STEM推論タスク、特に科学、数学、コーディングに最適化されたコスト効率的な言語モデルです。このモデルは3つの調整可能な推論努力レベルを備えており、関数呼び出し、構造化出力、ストリーミングを含む主要な開発者機能をサポートしていますが、ビジョン処理機能は含まれていません。 このモデルは前身モデルに比べて大幅な改善を示しており、専門家テスターはその応答を56%の確率で好み、複雑な質問での重大なエラーが39%削減されたことが報告されています。中程度の推論努力設定では、o3-miniはAIMEやGPQAなどの難しい推論評価において、より大きなo1モデルのパフォーマンスと同等であり、同時にレイテンシーとコストを低く保ちます。
o4 Mini
openai/o4-miniOpenAI o4-miniは、o-シリーズのコンパクトな推論モデルであり、高速で費用対効果の高いパフォーマンスに最適化されながら、強力なマルチモーダル機能とエージェント機能を保持しています。ツール使用をサポートし、AIME(Pythonで99.5%)やSWE-benchなどのベンチマークで競争力のある推論およびコーディングパフォーマンスを実証し、その前身であるo3-miniを上回り、いくつかの領域ではo3に近づいています。 より小さいサイズにもかかわらず、o4-miniはSTEMタスク、視覚的問題解決(例:MathVista、MMMU)、およびコード編集において高い精度を示します。レイテンシーまたはコストが重要な高スループットシナリオに特に適しています。効率的なアーキテクチャと洗練された強化学習トレーニングのおかげで、o4-miniはツールをチェーンし、構造化された出力を生成し、多段階のタスクを最小限の遅延で解決できます。多くの場合、1分以内です。
Olmo 2 32B Instruct
allenai/olmo-2-0325-32b-instructOLMo-2 32B Instruct は、OLMo-2 32B 2025年3月ベースモデルの教師あり命令ファインチューン版です。GSM8K、MATH、IFEval、および一般的なNLP評価など、多様なベンチマークにおいて複雑な推論と命令追従タスクに優れています。AI2によって開発されたOLMo-2 32Bは、オープンソース言語モデルの理解と開発を進めるために、主に英語言語データセットで訓練された、オープンで研究指向のイニシアティブの一部です。
Olmo 3.1 32B Instruct
allenai/olmo-3.1-32b-instructOlmo 3.1 32B Instructは、高性能な会話型AI、マルチターン対話、および実用的な指示追従のために設計された大規模な320億パラメータの指示チューニング言語モデルです。Olmo 3.1ファミリーの一部として、このバリアントは複雑なユーザー指示への応答性と堅牢なチャット相互作用を強調しながら、推論およびコーディングベンチマークの強力な能力を保持しています。Ai2によってApache 2.0ライセンスの下で開発されたOlmo 3.1 32B Instructは、Olmoイニシアチブのオープン性と透明性への取り組みを反映しています。
Olmo 3.1 32B Think
allenai/olmo-3.1-32b-thinkOlmo 3.1 32Bシンクは、深い推論、複雑な多段階ロジック、および高度な指示追従を目的とした320億パラメータの大規模モデルです。Olmo 3シリーズに基づいて、バージョン3.1は洗練された推論動作と要求の厳しい評価および微妙な会話タスク全体にわたるより強いパフォーマンスを提供します。Apache 2.0ライセンスの下でAi2によって開発されたOlmo 3.1 32Bシンクは、モデルの重み、コード、およびトレーニング方法論全体にわたって完全な透明性を提供し、Olmoイニシアチブのオープネスへのコミットメントを継続しています。
Olmo 3 32B Think
allenai/olmo-3-32b-thinkOlmo 3 32B Thinkは、深い推論、複雑なロジックチェーン、高度な指示追従シナリオのために特別に設計された大規模な320億パラメータモデルです。その容量により、要求の厳しい評価タスクと非常にニュアンスのある会話推論で強力なパフォーマンスを実現します。Ai2によってApache 2.0ライセンスの下で開発されたOlmo 3 32B Thinkは、Olmoイニシアチブの開放性への取り組みを体現し、重み、コード、トレーニング方法論全体にわたって完全な透明性を提供しています。
Phi 4
microsoft/phi-4[Microsoft Research](/microsoft) Phi-4は、複雑な推論タスクで高いパフォーマンスを発揮するように設計されており、メモリが限定的な状況や迅速な応答が必要な場況で効率的に動作できます。 140億のパラメータを持つPhi-4は、高品質な合成データセット、厳選されたウェブサイトのデータ、および学術資料の混合データで訓練されました。指示に正確に従い、強力なセーフティスタンダードを維持するために慎重に改善されています。英語の入力で最適に機能します。 詳細については、[Phi-4 Technical Report](https://arxiv.org/pdf/2412.08905)をご覧ください。
Pixtral Large 2411
mistralai/pixtral-large-2411Pixtral Largeは、[Mistral Large 2](/mistralai/mistral-large-2411)の上に構築された124Bパラメータのオープンウェイト、マルチモーダルモデルです。このモデルは、ドキュメント、チャート、自然画像を理解することができます。 このモデルは、研究および教育目的でのMistral Research License (MRL)、および商用目的での実験、テスト、本番運用でのMistral Commercial Licenseの下で利用可能です。
Qwen2.5 72B Instruct
qwen/qwen-2.5-72b-instructQwen2.5 72Bは、Qwenの最新の大規模言語モデルシリーズです。Qwen2.5はQwen2に対して以下の改善をもたらします: - 知識が大幅に増加し、これらの領域における専門の専門家モデルのおかげで、コーディングと数学の能力が大きく向上しました。 - 指示への従順性、長いテキスト(8,000トークン以上)の生成、構造化データ(表など)の理解、特にJSONなどの構造化出力の生成において大幅な改善。システムプロンプトの多様性に対してより耐性があり、チャットボットのロールプレイ実装と条件設定を強化しています。 - 最大128Kトークンまでの長文脈サポートと、最大8Kトークンまでの生成が可能です。 - 中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語など、29言語以上の多言語サポート。 このモデルの使用は、[Tongyi Qianwen ライセンス契約](https://huggingface.co/Qwen/Qwen1.5-110B-Chat/blob/main/LICENSE)に従うものとします。
Qwen2.5 Coder 32B Instruct
qwen/qwen-2.5-coder-32b-instructQwen2.5-Coderは、最新のコード専用Qwen大規模言語モデルシリーズ(旧称CodeQwen)です。Qwen2.5-Coderは、CodeQwen1.5に対して以下の改善をもたらします: - **コード生成**、**コード推論**、**コード修正**における大幅な改善。 - **コードエージェント**などの実世界アプリケーションのためのより包括的な基盤。コーディング能力を強化するだけでなく、数学と一般的な能力における強みも維持しています。 評価結果の詳細については、[Qwen 2.5 Coderのブログ](https://qwenlm.github.io/blog/qwen2.5-coder-family/)をご覧ください。
Qwen2.5 VL 32B Instruct
qwen/qwen2.5-vl-32b-instructQwen2.5-VL-32Bは、強化学習を通じて微調整されたマルチモーダルビジョン言語モデルであり、数学的推論の強化、構造化出力、および視覚的問題解決能力を備えています。物体認識、画像内のテキスト解釈、および拡張ビデオ内の正確なイベント位置特定を含む視覚分析タスクに優れています。Qwen2.5-VL-32Bは、MMMU、MathVista、VideoMMEなどのマルチモーダルベンチマーク全体で最先端のパフォーマンスを実証しながら、MMLU、数学問題解決、コード生成などのテキストベースのタスクにおいて強力な推論と明確性を維持しています。
Qwen2.5 VL 72B Instruct
qwen/qwen2.5-vl-72b-instructQwen2.5-VLは、花、鳥、魚、昆虫などの一般的な物体の認識に優れています。また、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトの分析にも非常に高い能力を持っています。
Qwen3 235B A22B
qwen/qwen3-235b-a22bQwen3-235B-A22Bは、Qwenによって開発された235Bパラメータの混合専門家(MoE)モデルで、フォワードパスごとに22Bパラメータを活性化します。複雑な推論、数学、コードタスク向けの「思考」モードと、一般的な会話効率向けの「非思考」モードの間でシームレスに切り替えることができます。このモデルは、強力な推論能力、多言語対応(100以上の言語と方言)、高度な指示追従、エージェントツール呼び出し機能を実証しています。ネイティブで32Kトークンのコンテキストウィンドウを処理し、YaRNベースのスケーリングを使用して131Kトークンまで拡張できます。
Qwen3 235B A22B Instruct 2507
qwen/qwen3-235b-a22b-2507Qwen3-235B-A22B-Instruct-2507は、Qwen3-235Bアーキテクチャに基づいた多言語対応の命令チューニング済みMoE言語モデルで、フォワードパスあたり22Bのアクティブパラメータを備えています。汎用テキスト生成、命令追従、論理推論、数学、コード、ツール使用に最適化されています。このモデルはネイティブ262Kのコンテキスト長をサポートしており、「思考モード」(<think>ブロック)を実装していません。 ベースバリアントと比較して、このバージョンは知識カバレッジ、長文脈推論、コーディングベンチマーク、オープンエンドタスクとのアライメントにおいて大幅な改善を実現しています。特に多言語理解、数学推論(例:AIME、HMMT)、Arena-HardやWritingBenchなどのアライメント評価に優れています。
Qwen3 235B A22B Thinking 2507
qwen/qwen3-235b-a22b-thinking-2507Qwen3-235B-A22B-Thinking-2507は、複雑な推論タスクに最適化された高性能なオープンウェイト混合エキスパート(MoE)言語モデルです。フォワードパスごとに235Bパラメータのうち22Bをアクティベートし、最大262,144トークンのコンテキストをネイティブにサポートしています。この「思考専用」バリアントは、構造化された論理推論、数学、科学、長文生成を強化し、AIME、SuperGPQA、LiveCodeBench、MMLU-Reduxなどのベンチマークで強いパフォーマンスを示しています。特別な推論モード(</think>)を実装しており、チャレンジングなドメインで最大81,920トークンの高トークン出力用に設計されています。 このモデルは命令チューニングされており、ステップバイステップの推論、ツール使用、エージェントワークフロー、多言語タスクに優れています。このリリースはQwen3-235Bシリーズで最も高性能なオープンソースバリアントを表しており、構造化推論のユースケースで多くのクローズドモデルを上回っています。
Qwen3 30B A3B
qwen/qwen3-30b-a3bQwen3は、Qwen大規模言語モデルシリーズの最新世代であり、密集型とMixture-of-Experts(MoE)アーキテクチャの両方を備えており、推論、多言語サポート、および高度なエージェントタスクで優れています。複雑な推論のための思考モードと効率的な対話のための非思考モードをシームレスに切り替える独自の能力により、多目的で高品質なパフォーマンスを実現します。 QwQやQwen2.5などの以前のモデルを大幅に上回り、Qwen3は優れた数学、コーディング、常識推論、創作、および対話型対話機能を提供します。Qwen3-30B-A3Bバリアントは、305億個のパラメータ(33億個がアクティブ化)、48層、128個のエキスパート(タスクごとに8個がアクティブ化)を含み、YaRNで最大131Kトークンコンテキストをサポートし、オープンソースモデルの中で新しい標準を設定しています。
Qwen3 30B A3B Instruct 2507
qwen/qwen3-30b-a3b-instruct-2507Qwen3-30B-A3B-Instruct-2507は、Qwenの30.5Bパラメータの混合専門家言語モデルで、推論ごとに3.3Bのアクティブパラメータを備えています。非思考モードで動作し、高品質な指示追従、多言語理解、エージェント的ツール使用のために設計されています。指示データで事後学習され、推論(AIME、ZebraLogic)、コーディング(MultiPL-E、LiveCodeBench)、アライメント(IFEval、WritingBench)ベンチマーク全体で競争力のあるパフォーマンスを示します。主観的でオープンエンドなタスクでは非指示バリアントを上回りながら、強力な事実性とコーディングパフォーマンスを保持しています。
Qwen3 30B A3B Thinking 2507
qwen/qwen3-30b-a3b-thinking-2507Qwen3-30B-A3B-Thinking-2507は、複雑なタスクに対応するために拡張された多段階思考を必要とする30Bパラメータの混合専門家推論モデルです。このモデルは「思考モード」に特化して設計されており、内部推論トレースと最終的な回答が分離されています。 以前のQwen3-30Bリリースと比較して、このバージョンは論理推論、数学、科学、コーディング、および多言語ベンチマーク全体でパフォーマンスが向上しています。また、より強力な指示追従、ツール使用、および人間の好みとの整合性を示しています。推論効率が高く、出力予算が拡張されているため、高度な研究、競争的問題解決、および構造化された長文脈推論を必要とするエージェント型アプリケーションに最適です。
Qwen3 32B
qwen/qwen3-32bQwen3-32Bは、Qwen3シリーズの密集型32.8Bパラメータ因果言語モデルであり、複雑な推論と効率的な対話の両方に最適化されています。数学、コーディング、論理推論などのタスク用の「思考」モードと、より高速な汎用会話用の「非思考」モードをシームレスに切り替えることができます。このモデルは、指示追従、エージェントツール使用、創作文、および100以上の言語と方言にわたる多言語タスクで強力なパフォーマンスを発揮します。ネイティブに32Kトークンコンテキストを処理でき、YaRNベースのスケーリングを使用して131Kトークンまで拡張できます。
Qwen3.5-122B-A10B
qwen/qwen3.5-122b-a10bQwen3.5 122B-A10Bネイティブビジョン言語モデルは、線形注意メカニズムとスパース混合専門家モデルを統合したハイブリッドアーキテクチャ上に構築されており、より高い推論効率を実現しています。全体的なパフォーマンスの観点から、このモデルはQwen3.5-397B-A17Bに次ぐものです。そのテキスト機能はQwen3-235B-2507のそれを大幅に上回り、その視覚機能はQwen3-VL-235Bのそれを上回っています。
Qwen3.5-27B
qwen/qwen3.5-27bQwen3.5 27B ネイティブビジョン言語Denseモデルは線形注意メカニズムを組み込んでおり、高速な応答時間を実現しながら推論速度とパフォーマンスのバランスを取っています。その全体的な能力はQwen3.5-122B-A10Bのそれと同等です。
Qwen3.5-35B-A3B
qwen/qwen3.5-35b-a3bQwen3.5 Series 35B-A3Bは、線形注意メカニズムとスパース混合専門家モデルを統合したハイブリッドアーキテクチャで設計されたネイティブビジョン言語モデルであり、より高い推論効率を実現しています。その全体的なパフォーマンスはQwen3.5-27Bのそれに匹敵します。
Qwen3.5 397B A17B
qwen/qwen3.5-397b-a17bQwen3.5シリーズ397B-A17Bネイティブビジョン言語モデルは、線形注意メカニズムとスパース混合専門家モデルを統合したハイブリッドアーキテクチャ上に構築されており、より高い推論効率を実現しています。言語理解、論理推論、コード生成、エージェントベースのタスク、画像理解、ビデオ理解、グラフィカルユーザーインターフェース(GUI)インタラクションを含む幅広いタスクにおいて、最先端のパフォーマンスを提供し、最先端モデルに匹敵します。堅牢なコード生成およびエージェント機能により、このモデルは多様なエージェント全体にわたって強い汎化性を示しています。
Qwen3.5-Flash
qwen/qwen3.5-flash-02-23Qwen3.5ネイティブビジョン言語Flashモデルは、線形注意メカニズムとスパース混合専門家モデルを統合したハイブリッドアーキテクチャ上に構築されており、より高い推論効率を実現しています。3シリーズと比較して、これらのモデルはテキストのみのタスクとマルチモーダルタスクの両方において性能の大きな飛躍をもたらし、推論速度と全体的なパフォーマンスのバランスを取りながら、高速な応答時間を提供します。
Qwen3 Coder 30B A3B Instruct
qwen/qwen3-coder-30b-a3b-instructQwen3-Coder-30B-A3B-Instructは、30.5Bパラメータの混合エキスパート(MoE)モデルで、128個のエキスパート(フォワードパスごとに8個がアクティブ)を備えており、高度なコード生成、リポジトリ規模の理解、エージェント的なツール使用のために設計されています。Qwen3アーキテクチャに基づいており、256Kトークンのネイティブコンテキスト長をサポートし(Yarnで1Mまで拡張可能)、関数呼び出し、ブラウザ使用、構造化されたコード補完を含むタスクで強力なパフォーマンスを発揮します。 このモデルは「思考モード」なしの指示追従に最適化されており、OpenAI互換のツール使用フォーマットとよく統合されます。
Qwen3 Coder 480B A35B
qwen/qwen3-coder-480b-a35b-instruct-fp8アリババの最も高性能なオープンソースのエージェント型コーディングモデル。480B個の総パラメータ(35B個がアクティブ)を備えたMixture-of-Experts アーキテクチャで、7.5兆トークンで訓練されています。エージェント型コーディングベンチマークにおいてオープンモデルの中で最先端の結果を達成し、Claude Sonnet 4に匹敵します。
Qwen3 Coder 480B A35B
qwen/qwen3-coderQwen3-Coder-480B-A35B-Instructは、Qwenチームによって開発されたMixture-of-Experts(MoE)コード生成モデルです。関数呼び出し、ツール使用、リポジトリ上の長文脈推論などのエージェント的コーディングタスクに最適化されています。このモデルは総480億パラメータを備えており、フォワードパスあたり35億パラメータがアクティブです(160個のエキスパートのうち8個)。 Alibabaエンドポイントの価格設定はコンテキスト長によって異なります。リクエストが128kを超える入力トークンになると、より高い価格が適用されます。
Qwen3 Max
qwen/qwen3-maxQwen3-Maxは、Qwen3シリーズに基づいて構築された更新版リリースで、2025年1月版と比較して、推論、指示の遵守、多言語サポート、および長尾知識カバレッジにおいて大幅な改善を提供しています。数学、コーディング、論理、および科学タスクにおいてより高い精度を実現し、中国語と英語の複雑な指示をより確実に遵守し、幻覚を減らし、オープンエンドのQ&A、執筆、および会話に対してより高品質の応答を生成します。このモデルは100以上の言語をサポートし、翻訳と常識的推論がより強化されており、検索拡張生成(RAG)とツール呼び出しに最適化されていますが、専用の「思考」モードは含まれていません。
Qwen3 Next 80B A3B Instruct
qwen/qwen3-next-80b-a3b-instructQwen3-Next-80B-A3B-Instructは、Qwen3-Nextシリーズの指示チューニング済みチャットモデルで、「思考」トレースなしの高速で安定した応答に最適化されています。推論、コード生成、知識QA、多言語使用など複雑なタスクに対応しながら、アライメントとフォーマットの堅牢性を維持します。以前のQwen3指示バリアントと比較して、超長入力とマルチターン対話における高いスループットと安定性に焦点を当てており、RAG、ツール使用、可視的な思考の連鎖ではなく一貫した最終回答を必要とするエージェントワークフローに適しています。 このモデルはスケーリング効率的なトレーニングとデコーディングを採用して、パラメータ効率と推論速度を向上させ、広範な公開ベンチマークで検証されており、いくつかのカテゴリーでより大規模なQwen3システムと同等またはそれに近い性能を達成しながら、以前の中規模ベースラインを上回っています。決定論的で指示に従う出力が優先される本番環境での汎用アシスタント、コードヘルパー、長文脈タスクソルバーとして最適に使用されます。
Qwen3 Next 80B A3B Instruct (free)
qwen/qwen3-next-80b-a3b-instruct:freeQwen3-Next-80B-A3B-Instructは、Qwen3-Nextシリーズの指示調整チャットモデルで、「思考」の痕跡なく高速で安定した応答を実現するよう最適化されています。推論、コード生成、知識QA、多言語使用など複雑なタスクを対象としており、アライメントとフォーマットの堅牢性を保ちながら機能します。以前のQwen3指示バリアントと比較して、超長入力とマルチターン対話における高いスループットと安定性に焦点を当てており、RAG、ツール使用、可視的な思考の連鎖ではなく一貫した最終回答を必要とするエージェントワークフローに適しています。 このモデルはスケーリング効率的なトレーニングとデコーディングを採用し、パラメータ効率と推論速度を向上させており、広範な公開ベンチマークで検証されています。いくつかのカテゴリではより大規模なQwen3システムと同等またはそれに近い性能に達し、以前の中規模ベースラインを上回っています。決定論的で指示に従う出力が優先される本番環境において、汎用アシスタント、コードヘルパー、長文脈タスクソルバーとして最適に使用されます。
Qwen3 Next 80B A3B Thinking
qwen/qwen3-next-80b-a3b-thinkingQwen3-Next-80B-A3B-Thinkingは、Qwen3-Nextラインの推論優先チャットモデルであり、デフォルトで構造化された「思考」トレースを出力します。複雑な多段階問題、数学的証明、コード合成/デバッグ、論理、およびエージェント計画に設計されており、知識、推論、コーディング、アライメント、および多言語評価全体で強い結果を報告しています。以前のQwen3バリアントと比較して、長い思考チェーン下での安定性と推論中の効率的なスケーリングを強調し、複雑な指示に従うように調整されながら、反復的またはオフタスク動作を削減しています。 このモデルは、エージェントフレームワークとツール使用(関数呼び出し)、検索集約的なワークフロー、およびステップバイステップのソリューションが必要な標準化されたベンチマークに適しています。長く詳細な完成をサポートし、スループット指向の技術(例えば、マルチトークン予測)を活用してより高速な生成を実現します。思考専用モードで動作することに注意してください。
Qwen3 VL 235B A22B Instruct
qwen/qwen3-vl-235b-a22b-instructQwen3-VL-235B-A22B Instructは、画像とビデオ全体にわたって強力なテキスト生成と視覚理解を統合するオープンウェイトのマルチモーダルモデルです。Instructモデルは、一般的なビジョン言語用途(VQA、ドキュメント解析、チャート/テーブル抽出、多言語OCR)を対象としています。このシリーズは、堅牢な知覚(多様な現実世界および合成カテゴリの認識)、空間理解(2D/3D接地)、および長形式の視覚理解を強調しており、知覚と推論の両方に関する公開マルチモーダルベンチマークで競争力のある結果を達成しています。 分析を超えて、Qwen3-VLはエージェント的相互作用とツール使用をサポートしています。複数画像、複数ターンの対話にわたる複雑な指示に従うことができ、ビデオタイムラインにテキストを整列させて正確な時間的クエリを実行し、自動化タスク用のGUI要素を操作できます。また、スケッチやモックアップをコードに変換し、UIデバッグを支援するビジュアルコーディングワークフローも可能にしながら、フラグシップのQwen3言語モデルに匹敵する強力なテキストのみのパフォーマンスを維持しています。これにより、Qwen3-VLはドキュメントAI、多言語OCR、ソフトウェア/UIアシスタンス、空間/具現化タスク、およびビジョン言語エージェントの研究にわたる本番環境シナリオに適しています。
Qwen3 VL 235B A22B Thinking
qwen/qwen3-vl-235b-a22b-thinkingQwen3-VL-235B-A22Bシンキングは、テキスト生成と画像およびビデオ全体にわたる視覚理解を統合したマルチモーダルモデルです。シンキングモデルはSTEMと数学におけるマルチモーダル推論に最適化されています。このシリーズは、堅牢な知覚(多様な実世界および合成カテゴリーの認識)、空間理解(2D/3D接地)、および長形式の視覚的理解を強調しており、知覚と推論の両方に関する公開マルチモーダルベンチマークで競争力のある結果を達成しています。 分析を超えて、Qwen3-VLはエージェント的相互作用とツール使用をサポートしています。複数画像、複数ターンの対話にわたる複雑な指示に従うことができ、テキストをビデオタイムラインに整列させて正確な時間的クエリを実行し、自動化タスク用のGUI要素を操作できます。また、スケッチやモックアップをコードに変換し、UIデバッグを支援する視覚的コーディングワークフローを実現しながら、フラッグシップのQwen3言語モデルに匹敵する強力なテキストのみのパフォーマンスを維持しています。これにより、Qwen3-VLはドキュメントAI、多言語OCR、ソフトウェア/UIアシスタンス、空間/具体化タスク、およびビジョン言語エージェントに関する研究にわたる本番環境シナリオに適しています。
Qwen-Max
qwen/qwen-maxQwen-Max(Qwen2.5ベース)は、特に複雑なマルチステップタスクにおいて、[Qwenモデル](/qwen)の中で最高の推論性能を提供します。20兆以上のトークンで事前学習された大規模MoEモデルであり、厳選された教師あり微調整(SFT)と人間フィードバックからの強化学習(RLHF)の方法論によってさらに後学習されています。パラメータ数は非公開です。
Qwen-Plus
qwen/qwen-plusQwen-Plusは、Qwen2.5基盤モデルに基づいており、131Kのコンテキストを備えた、パフォーマンス、速度、コストのバランスの取れたモデルです。
Qwen VL Max
qwen/qwen-vl-maxQwen VL Maxは7500トークンのコンテキスト長を備えた視覚理解モデルです。より広範な複雑なタスクに対して最適なパフォーマンスを提供することに優れています。
QwQ 32B
qwen/qwq-32bQwQはQwenシリーズの推論モデルです。従来の指示チューニングモデルと比較して、思考と推論が可能なQwQは、特に難しい問題において、ダウンストリームタスクのパフォーマンスを大幅に向上させることができます。QwQ-32Bは中規模の推論モデルであり、DeepSeek-R1やo1-miniなどの最先端の推論モデルと競争力のあるパフォーマンスを達成することができます。
R1
deepseek/deepseek-r1DeepSeek R1がここにあります:[OpenAI o1](/openai/o1)と同等のパフォーマンスですが、オープンソース化され、完全にオープンな推論トークンを備えています。パラメータサイズは671Bで、推論パスで37Bがアクティブです。 完全にオープンソースのモデル&[技術レポート](https://api-docs.deepseek.com/news/news250120)。 MITライセンス:自由に蒸留・商用化できます!
R1 0528
deepseek/deepseek-r1-05285月28日更新:[オリジナルDeepSeek R1](/deepseek/deepseek-r1)は[OpenAI o1](/openai/o1)と同等のパフォーマンスを実現していますが、オープンソース化され、推論トークンが完全に公開されています。パラメータサイズは671Bで、推論パスでは37Bがアクティブです。 完全にオープンソースのモデルです。
R1 Distill Llama 70B
deepseek/deepseek-r1-distill-llama-70bDeepSeek R1 Distill Llama 70Bは、[Llama-3.3-70B-Instruct](/meta-llama/llama-3.3-70b-instruct)に基づいた蒸留大規模言語モデルで、[DeepSeek R1](/deepseek/deepseek-r1)の出力を使用しています。このモデルは高度な蒸留技術を組み合わせており、以下を含む複数のベンチマークで高いパフォーマンスを実現しています: - AIME 2024 pass@1: 70.0 - MATH-500 pass@1: 94.5 - CodeForces Rating: 1633 このモデルはDeepSeek R1の出力からのファインチューニングを活用しており、より大規模なフロンティアモデルに匹敵する競争力のあるパフォーマンスを実現しています。
R1 Distill Qwen 32B
deepseek/deepseek-r1-distill-qwen-32bDeepSeek R1 Distill Qwen 32Bは、[Qwen 2.5 32B](https://huggingface.co/Qwen/Qwen2.5-32B)をベースとした蒸留大規模言語モデルで、[DeepSeek R1](/deepseek/deepseek-r1)の出力を使用しています。様々なベンチマークでOpenAIのo1-miniを上回り、密集型モデルの新しい最先端の結果を達成しています。 その他のベンチマーク結果は以下の通りです: - AIME 2024 pass@1: 72.6 - MATH-500 pass@1: 94.3 - CodeForces Rating: 1691 このモデルはDeepSeek R1の出力からのファインチューニングを活用し、より大規模なフロンティアモデルに匹敵する競争力のあるパフォーマンスを実現しています。
Step 3.5 Flash
stepfun/step-3.5-flashStep 3.5 Flashは、StepFunの最も高性能なオープンソース基盤モデルです。スパースMixture of Experts(MoE)アーキテクチャに基づいており、トークンごとに196Bパラメータのうち11Bのみを選択的に活性化します。これは非常に高速で効率的な推論モデルであり、長いコンテキストでも優れたパフォーマンスを発揮します。
Step 3.5 Flash (free)
stepfun/step-3.5-flash:freeStep 3.5 Flashは、StepFunの最も高性能なオープンソース基盤モデルです。スパースな混合専門家(MoE)アーキテクチャに基づいており、トークンごとに196Bパラメータのうち11Bのみを選択的に活性化します。長いコンテキストでも非常に速度効率的な推論モデルです。
Trinity Large Preview (free)
arcee-ai/trinity-large-preview:freeTrinity-Large-Previewは、Arceeのフロンティアスケール・オープンウェイト言語モデルで、4-of-256エキスパートルーティングを使用して、トークンあたり13Bのアクティブパラメータを持つ400Bパラメータのスパース混合エキスパート(MoE)として構築されています。 創作、ストーリーテリング、ロールプレイ、チャットシナリオ、リアルタイム音声アシスタンスに優れており、通常の推論モデルよりも優れたパフォーマンスを発揮します。同時に、新しいエージェント性能も導入しています。OpenCode、Cline、Kilo Codeなどのエージェントハーネスでの動作に対応するよう訓練されており、複雑なツールチェーンと長く制約の多いプロンプトを処理できます。 このアーキテクチャは、最大512kトークンの非常に長いコンテキストウィンドウをネイティブにサポートしており、Preview APIは現在、実用的なデプロイメントのために8ビット量子化を使用して128kコンテキストで提供されています。Trinity-Large-Previewは、Arceeの効率優先設計哲学を反映しており、オープンウェイトと寛容なライセンスを備えた本番環境対応のフロンティアモデルを提供し、実世界のアプリケーションと実験に適しています。
Voxtral Mini 3B
mistralai/voxtral-mini-3b-25073Bパラメータの音声言語モデルで、Ministral-3Bバックボーンに音声エンコーダを搭載し、最先端の音声理解を実現します。8言語にわたって、音声文字起こし、翻訳、音声Q&A、音声からの関数呼び出しに対応しています。