モデル一覧に戻る
qwen/qwen3-vl-235b-a22b-instruct
利用不可

Qwen3 VL 235B A22B Instruct

Qwen3-VL-235B-A22B Instructは、画像とビデオ全体にわたって強力なテキスト生成と視覚理解を統合するオープンウェイトのマルチモーダルモデルです。Instructモデルは、一般的なビジョン言語用途(VQA、ドキュメント解析、チャート/テーブル抽出、多言語OCR)を対象としています。このシリーズは、堅牢な知覚(多様な現実世界および合成カテゴリの認識)、空間理解(2D/3D接地)、および長形式の視覚理解を強調しており、知覚と推論の両方に関する公開マルチモーダルベンチマークで競争力のある結果を達成しています。 分析を超えて、Qwen3-VLはエージェント的相互作用とツール使用をサポートしています。複数画像、複数ターンの対話にわたる複雑な指示に従うことができ、ビデオタイムラインにテキストを整列させて正確な時間的クエリを実行し、自動化タスク用のGUI要素を操作できます。また、スケッチやモックアップをコードに変換し、UIデバッグを支援するビジュアルコーディングワークフローも可能にしながら、フラグシップのQwen3言語モデルに匹敵する強力なテキストのみのパフォーマンスを維持しています。これにより、Qwen3-VLはドキュメントAI、多言語OCR、ソフトウェア/UIアシスタンス、空間/具現化タスク、およびビジョン言語エージェントの研究にわたる本番環境シナリオに適しています。

2025/9/23
262,144 トークン
#28 ビジョン (総合)
仕様

モダリティ

入力
text
image
出力
text

サポートされているパラメータ

frequency_penalty
logit_bias
max_tokens
min_p
presence_penalty
repetition_penalty
response_format
seed
stop
structured_outputs
temperature
tool_choice
tools
top_k
top_p
リーダーボード
テキスト
🏆総合ELO: 1,416
#65
🇯🇵日本語ELO: 1,368
#47
🇨🇳中国語ELO: 1,455
#59
🇰🇷韓国語ELO: 1,377
#39
🇬🇧英語ELO: 1,429
#65
frenchELO: 1,457
#36
germanELO: 1,407
#57
spanishELO: 1,398
#71
russianELO: 1,399
#75
💻コーディングELO: 1,466
#56
🧮数学ELO: 1,413
#66
✍️創作ELO: 1,363
#94
📝指示遵守ELO: 1,414
#55
🌶️高難度ELO: 1,440
#57
💬マルチターンELO: 1,426
#51
ビジョン
🏆総合ELO: 1,214
#28