GLM 4.6V

GLM-4.6Vは、画像、ドキュメント、混合メディア全体にわたって高忠実度の視覚理解と長文脈推論のために設計された大規模マルチモーダルモデルです。最大128Kトークンをサポートし、複雑なページレイアウトとチャートを視覚入力として直接処理し、知覚とダウンストリームツール実行を接続するネイティブマルチモーダル関数呼び出しを統合しています。このモデルはまた、スクリーンショットからHTMLへの合成と反復的な視覚編集を含む、インターリーブされた画像テキスト生成とUI再構築ワークフローを可能にします。

2025/12/8

131,072 トークン

仕様