Qwen3 VL 235B A22B Instruct

Qwen3-VL-235B-A22B Instructは、画像とビデオ全体にわたって強力なテキスト生成と視覚理解を統合するオープンウェイトのマルチモーダルモデルです。Instructモデルは、一般的なビジョン言語用途（VQA、ドキュメント解析、チャート/テーブル抽出、多言語OCR）を対象としています。このシリーズは、堅牢な知覚（多様な現実世界および合成カテゴリの認識）、空間理解（2D/3D接地）、および長形式の視覚理解を強調しており、知覚と推論の両方に関する公開マルチモーダルベンチマークで競争力のある結果を達成しています。分析を超えて、Qwen3-VLはエージェント的相互作用とツール使用をサポートしています。複数画像、複数ターンの対話にわたる複雑な指示に従うことができ、ビデオタイムラインにテキストを整列させて正確な時間的クエリを実行し、自動化タスク用のGUI要素を操作できます。また、スケッチやモックアップをコードに変換し、UIデバッグを支援するビジュアルコーディングワークフローも可能にしながら、フラグシップのQwen3言語モデルに匹敵する強力なテキストのみのパフォーマンスを維持しています。これにより、Qwen3-VLはドキュメントAI、多言語OCR、ソフトウェア/UIアシスタンス、空間/具現化タスク、およびビジョン言語エージェントの研究にわたる本番環境シナリオに適しています。

2025/9/23

262,144 トークン

#28 ビジョン (総合)

仕様