Loading...
Loading...
Qwen3-VL-8B-Instruct is a multimodal vision-language model from the Qwen3-VL series, built for high-fidelity understanding and reasoning across text, images, and video. It features improved multimodal fusion with Interleaved-MRoPE for long-horizon temporal reasoning, DeepStack for fine-grained visual-text alignment, and text-timestamp alignment for precise event localization. The model supports a native 256K-token context window, extensible to 1M tokens, and handles both static and dynamic media inputs for tasks like document parsing, visual question answering, spatial reasoning, and GUI control. It achieves text understanding comparable to leading LLMs while expanding OCR coverage to 32 languages and enhancing robustness under varied visual conditions.
Índice de Qualidade
14.3
282nd de 442
Top 64%
Índice de Código
7.3
292nd de 352
Top 83%
Índice de Matemática
27.3
189th de 268
Top 71%
Preço/1M
$0.31
339th mais barato
Na mediana
Top 50%
Velocidade
141 tok/s
Top 16%
TTFT
1.01s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.18
por 1M tokens
Saída
$0.70
por 1M tokens
Combinado
$0.31
por 1M tokens
Mais barato que 50% dos modelos. Preço mediano é $0.31/1M tokens.
Diário
$0.31
Mensal
$9.30
141
tokens/seg
Mais rápido que 84% dos modelos
1.01
segundos
Mais rápido que 29% dos modelos
1.01
segundos
Mais rápido que 37% dos modelos
Mediana do Mercado
46 tok/s
208% mais rápido
TTFT Mediano
0.42s
141% mais lento
Vazão/Dólar
454
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
33K
tokens
25% do contexto
8.4M
829
8-16 GB
RTX 4070 / M2 Pro