R1 Distill Llama 70B

DeepSeek R1 Distill Llama 70Bは、[Llama-3.3-70B-Instruct](/meta-llama/llama-3.3-70b-instruct)に基づいた蒸留大規模言語モデルで、[DeepSeek R1](/deepseek/deepseek-r1)の出力を使用しています。このモデルは高度な蒸留技術を組み合わせており、以下を含む複数のベンチマークで高いパフォーマンスを実現しています： - AIME 2024 pass@1: 70.0 - MATH-500 pass@1: 94.5 - CodeForces Rating: 1633 このモデルはDeepSeek R1の出力からのファインチューニングを活用しており、より大規模なフロンティアモデルに匹敵する競争力のあるパフォーマンスを実現しています。

2025/1/23

131,072 トークン

仕様