Llama 3.1 Nemotron Ultra 253B v1

Llama-3.1-Nemotron-Ultra-253B-v1は、高度な推論、人間とのインタラクティブなチャット、検索拡張生成（RAG）、およびツール呼び出しタスクに最適化された大規模言語モデル（LLM）です。Meta のLlama-3.1-405B-Instruct から派生しており、ニューラルアーキテクチャサーチ（NAS）を使用して大幅にカスタマイズされており、効率の向上、メモリ使用量の削減、推論レイテンシの改善が実現されています。このモデルは最大128Kトークンのコンテキスト長をサポートし、8x NVIDIA H100ノード上で効率的に動作できます。注：推論を有効にするには、システムプロンプトに「detailed thinking on」を含める必要があります。詳細については、[使用上の推奨事項](https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1#quick-start-and-usage-recommendations)を参照してください。

2025/4/8

131,072 トークン

仕様