Loading...
Loading...
Qwen3-VL-30B-A3B-Instruct is a multimodal model that unifies strong text generation with visual understanding for images and videos. Its Instruct variant optimizes instruction-following for general multimodal tasks. It excels in perception of real-world/synthetic categories, 2D/3D spatial grounding, and long-form visual comprehension, achieving competitive multimodal benchmark results. For agentic use, it handles multi-image multi-turn instructions, video timeline alignments, GUI automation, and visual coding from sketches to debugged UI. Text performance matches flagship Qwen3 models, suiting document AI, OCR, UI assistance, spatial tasks, and agent research.
Índice de Qualidade
16.1
242nd de 442
Top 55%
Índice de Código
14.3
203rd de 352
Top 58%
Índice de Matemática
72.3
89th de 268
Top 34%
Preço/1M
$0.35
346th mais barato
13% acima da mediana
Top 52%
Velocidade
123 tok/s
Top 22%
TTFT
1.12s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.20
por 1M tokens
Saída
$0.80
por 1M tokens
Combinado
$0.35
por 1M tokens
Mais barato que 48% dos modelos. Preço mediano é $0.31/1M tokens.
Diário
$0.35
Mensal
$10.50
123
tokens/seg
Mais rápido que 78% dos modelos
1.12
segundos
Mais rápido que 23% dos modelos
1.12
segundos
Mais rápido que 34% dos modelos
Mediana do Mercado
46 tok/s
170% mais rápido
TTFT Mediano
0.42s
169% mais lento
Vazão/Dólar
352
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
33K
tokens
25% do contexto
3.7M
552
24-48 GB
A6000 / M3 Ultra