Loading...
Loading...
Qwen3-VL-32B-Instruct is a large-scale multimodal vision-language model designed for high-precision understanding and reasoning across text, images, and video. With 32 billion parameters, it combines deep visual perception with advanced text comprehension, enabling fine-grained spatial reasoning, document and scene analysis, and long-horizon video understanding.Robust OCR in 32 languages, and enhanced multimodal fusion through Interleaved-MRoPE and DeepStack architectures. Optimized for agentic interaction and visual tool use, Qwen3-VL-32B delivers state-of-the-art performance for complex real-world multimodal tasks.
Índice de Qualidade
17.2
227th de 442
Top 52%
Índice de Código
15.6
187th de 352
Top 53%
Índice de Matemática
68.3
99th de 268
Top 37%
Preço/1M
$1.23
504th mais barato
295% acima da mediana
Top 75%
Velocidade
76 tok/s
Top 36%
TTFT
1.02s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.70
por 1M tokens
Saída
$2.80
por 1M tokens
Combinado
$1.23
por 1M tokens
Mais barato que 25% dos modelos. Preço mediano é $0.31/1M tokens.
Diário
$1.23
Mensal
$36.75
76
tokens/seg
Mais rápido que 64% dos modelos
1.02
segundos
Mais rápido que 28% dos modelos
1.02
segundos
Mais rápido que 37% dos modelos
Mediana do Mercado
46 tok/s
67% mais rápido
TTFT Mediano
0.42s
145% mais lento
Vazão/Dólar
62
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
33K
tokens
25% do contexto
1.0M
190
24-48 GB
A6000 / M3 Ultra