Llama 3.3 Nemotron Super 49B V1.5
Llama-3.3-Nemotron-Super-49Bv1.5は、Meta のLlama-3.3-70B-Instructから派生した49Bパラメータの英語中心の推論/チャットモデルで、128Kのコンテキストウィンドウを備えています。数学、コード、科学、マルチターンチャットにわたるSFTを通じてエージェントワークフロー(RAG、ツール呼び出し)用に後学習され、その後複数のRL段階が続きます。報酬認識選好最適化(RPO)によるアライメント、段階的推論のための検証可能な報酬によるRL(RLVR)、およびツール使用動作を洗練させるための反復的DPOです。蒸留駆動型ニューラルアーキテクチャサーチ(「Puzzle」)は、いくつかのアテンションブロックを置き換え、FFN幅を変動させてメモリフットプリントを縮小し、スループットを向上させ、命令追従とCoT品質を保持しながら単一GPU(H100/H200)デプロイメントを可能にします。 内部評価(NeMo-Skills、最大16回実行、温度=0.6、top_p=0.95)では、このモデルは強力な推論/コーディング結果を報告しています。例えば、MATH500パス@1=97.4、AIME-2024=87.5、AIME-2025=82.71、GPQA=71.97、LiveCodeBench(24.10–25.02)=73.58、MMLU-Pro(CoT)=79.53です。このモデルは、Transformers/vLLMサポートと明示的な「推論オン/オフ」モード(チャット優先デフォルト、無効時はグリーディ推奨)を備えた実用的な推論効率(高トークン/秒、削減されたVRAM)を目指しています。バランスの取れた精度対コストと信頼性の高いツール使用が重要なエージェント、アシスタント、および長いコンテキスト検索システムの構築に適しています。