Qwen3 VL 235B A22B Thinking

Qwen3-VL-235B-A22Bシンキングは、テキスト生成と画像およびビデオ全体にわたる視覚理解を統合したマルチモーダルモデルです。シンキングモデルはSTEMと数学におけるマルチモーダル推論に最適化されています。このシリーズは、堅牢な知覚（多様な実世界および合成カテゴリーの認識）、空間理解（2D/3D接地）、および長形式の視覚的理解を強調しており、知覚と推論の両方に関する公開マルチモーダルベンチマークで競争力のある結果を達成しています。分析を超えて、Qwen3-VLはエージェント的相互作用とツール使用をサポートしています。複数画像、複数ターンの対話にわたる複雑な指示に従うことができ、テキストをビデオタイムラインに整列させて正確な時間的クエリを実行し、自動化タスク用のGUI要素を操作できます。また、スケッチやモックアップをコードに変換し、UIデバッグを支援する視覚的コーディングワークフローを実現しながら、フラッグシップのQwen3言語モデルに匹敵する強力なテキストのみのパフォーマンスを維持しています。これにより、Qwen3-VLはドキュメントAI、多言語OCR、ソフトウェア/UIアシスタンス、空間/具体化タスク、およびビジョン言語エージェントに関する研究にわたる本番環境シナリオに適しています。

2025/9/23

131,072 トークン

#38 ビジョン (総合)

仕様