モデル一覧に戻る
qwen/qwen3-vl-235b-a22b-thinking
利用不可
Qwen3 VL 235B A22B Thinking
Qwen3-VL-235B-A22Bシンキングは、テキスト生成と画像およびビデオ全体にわたる視覚理解を統合したマルチモーダルモデルです。シンキングモデルはSTEMと数学におけるマルチモーダル推論に最適化されています。このシリーズは、堅牢な知覚(多様な実世界および合成カテゴリーの認識)、空間理解(2D/3D接地)、および長形式の視覚的理解を強調しており、知覚と推論の両方に関する公開マルチモーダルベンチマークで競争力のある結果を達成しています。 分析を超えて、Qwen3-VLはエージェント的相互作用とツール使用をサポートしています。複数画像、複数ターンの対話にわたる複雑な指示に従うことができ、テキストをビデオタイムラインに整列させて正確な時間的クエリを実行し、自動化タスク用のGUI要素を操作できます。また、スケッチやモックアップをコードに変換し、UIデバッグを支援する視覚的コーディングワークフローを実現しながら、フラッグシップのQwen3言語モデルに匹敵する強力なテキストのみのパフォーマンスを維持しています。これにより、Qwen3-VLはドキュメントAI、多言語OCR、ソフトウェア/UIアシスタンス、空間/具体化タスク、およびビジョン言語エージェントに関する研究にわたる本番環境シナリオに適しています。
2025/9/23
131,072 トークン
#38 ビジョン (総合)
仕様
モダリティ
入力
text
image
出力
text
サポートされているパラメータ
frequency_penalty
include_reasoning
max_tokens
presence_penalty
reasoning
repetition_penalty
response_format
seed
stop
structured_outputs
temperature
tool_choice
tools
top_k
top_p
最大出力トークン
32,768リーダーボード
テキスト
🏆総合ELO: 1,396
#94🇨🇳中国語ELO: 1,441
#74🇰🇷韓国語ELO: 1,361
#52🇬🇧英語ELO: 1,404
#101germanELO: 1,414
#48spanishELO: 1,383
#88russianELO: 1,376
#98💻コーディングELO: 1,457
#71🧮数学ELO: 1,408
#74✍️創作ELO: 1,338
#118📝指示遵守ELO: 1,384
#94🌶️高難度ELO: 1,419
#86💬マルチターンELO: 1,388
#107ビジョン
🏆総合ELO: 1,190
#38