Loading...
Loading...
GLM-4.6V is a large multimodal model designed for high-fidelity visual understanding and long-context reasoning across images, documents, and mixed media. It supports up to 128K tokens, processes complex page layouts and charts directly as visual inputs, and integrates native multimodal function calling to connect perception with downstream tool execution. The model also enables interleaved image-text generation and UI reconstruction workflows, including screenshot-to-HTML synthesis and iterative visual editing.
Índice de Qualidade
17.1
229th de 442
Top 52%
Índice de Código
11.1
246th de 352
Top 70%
Índice de Matemática
26.3
193rd de 268
Top 72%
Preço/1M
$0.45
377th mais barato
45% acima da mediana
Top 56%
Velocidade
22 tok/s
Top 61%
TTFT
6.09s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.30
por 1M tokens
Saída
$0.90
por 1M tokens
Combinado
$0.45
por 1M tokens
Mais barato que 44% dos modelos. Preço mediano é $0.31/1M tokens.
Diário
$0.45
Mensal
$13.50
22
tokens/seg
Mais rápido que 39% dos modelos
6.09
segundos
Mais rápido que 8% dos modelos
6.09
segundos
Mais rápido que 24% dos modelos
Mediana do Mercado
46 tok/s
52% mais lento
TTFT Mediano
0.42s
1357% mais lento
Vazão/Dólar
49
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
131K
tokens
100% do contexto