Qwen2.5 VL 32B Instruct

Qwen2.5-VL-32Bは、強化学習を通じて微調整されたマルチモーダルビジョン言語モデルであり、数学的推論の強化、構造化出力、および視覚的問題解決能力を備えています。物体認識、画像内のテキスト解釈、および拡張ビデオ内の正確なイベント位置特定を含む視覚分析タスクに優れています。Qwen2.5-VL-32Bは、MMMU、MathVista、VideoMMEなどのマルチモーダルベンチマーク全体で最先端のパフォーマンスを実証しながら、MMLU、数学問題解決、コード生成などのテキストベースのタスクにおいて強力な推論と明確性を維持しています。

2025/3/24

128,000 トークン

仕様