Por que os criadores de agentes no OpenRouter convergem para o mesmo pequeno conjunto de modelos | FindLLM
Por que os criadores de agentes no OpenRouter convergem para o mesmo pequeno conjunto de modelos
Análise de quais modelos alimentam os principais apps de agentes de IA no OpenRouter, por que cada um preenche um papel diferente e como escolher uma stack por tipo de carga de trabalho.
Não existe um único melhor modelo para agentes de IA. Os principais apps de agentes no OpenRouter — OpenClaw, Kilo Code, Claude Code, Cline, Roo Code, Hermes Agent, Agent Zero, BLACKBOXAI — todos usam múltiplos modelos porque as cargas de trabalho de agentes se dividem em tarefas distintas com diferentes requisitos de custo e confiabilidade. Modelos premium lidam com planejamento e recuperação de falhas. Modelos de nível intermediário executam o loop principal de execução. Modelos ultra-baratos cuidam de extração em segundo plano, classificação e etapas de sub-agentes. Modelos de raciocínio explícito são chamados seletivamente quando a lógica passo a passo importa. Entender essa estratificação é mais útil do que perseguir um único vencedor de ranking.
A stack de agentes em camadas
O OpenClaw está no topo dos rankings públicos de apps do OpenRouter, e seus dados de uso de modelos tornam o padrão visível. O app não se compromete com um único modelo. Ele direciona diferentes tipos de tarefa para diferentes faixas de preço-desempenho. Isso não é exclusivo do OpenClaw; reflete como sistemas de agentes em produção funcionam em geral. Cada chamada de ferramenta, cada atualização de janela de contexto, cada nova tentativa custa tokens. Pagar $15/M de tokens de saída para um heartbeat de verificação de status é desperdício. Pagar $0,38/M para um plano de recuperação complexo com múltiplas etapas é outro tipo de desperdício — o tipo que causa falhas silenciosas.
Análise modelo por modelo
Claude Sonnet 4.6 (Anthropic): a espinha dorsal premium
Melhor em: tarefas difíceis de código, orquestração de longo horizonte em contexto de 1M, planos de agente multi-etapa bem elaborados. A $3/M de entrada e $15/M de saída, é caro — mas as equipes o escolhem porque ele produz menos tentativas em tarefas difíceis de planejamento, e tentativas em escala custam mais do que o próprio premium. Onde fica devendo: usá-lo como padrão para cada heartbeat de agente, passagem de extração ou etapa de sub-agente drena o orçamento rapidamente. Melhor papel: planejador de nível superior, manipulador de recuperação, gerador de resposta final.
Kimi K2.5 (Moonshot AI): raciocínio geral com ótimo custo-benefício
Melhor em: raciocínio geral forte, codificação visual e chamadas de ferramentas agênticas a $0,45/M de entrada, $2,20/M de saída. Isso é aproximadamente 85% mais barato na entrada do que o Claude Sonnet 4.6. O sinal da comunidade é forte: o Cursor supostamente o considera o melhor modelo open-source atualmente. Onde fica devendo: contexto de 262.144 é adequado para a maioria dos loops de agente, mas limita horizontes de planejamento muito longos. Não é um substituto universal para o papel de planejador mais difícil. Melhor papel: modelo de execução principal onde custo importa e as tarefas são moderadamente complexas.
Gemini 3.1 Pro Preview (Google): planejador multimodal de contexto longo
Melhor em: janela de contexto de 1.048.576 tokens, fluxos de trabalho multimodais, confiabilidade agêntica em sessões prolongadas. A $2/M de entrada, $12/M de saída, fica entre o Claude e as opções de nível intermediário em preço. Onde fica devendo: comportamento de modelo em preview significa regressões ocasionais, e o tratamento de detalhes de raciocínio pode adicionar complexidade de integração. Melhor papel: planejamento de contexto longo, pipelines de agentes multimodais.
Stay in the loop
Weekly LLM analysis delivered to your inbox. No spam.
Gemini 3 Flash Preview (Google): o cavalo de batalha pensante
Melhor em: contexto de 1M com inferência mais rápida e $0,50/M de entrada, $3/M de saída. Um bom meio-termo para loops de agente que precisam de raciocínio mas não justificam o preço do Pro em cada chamada. Onde fica devendo: menos confiável que o Pro nos planos multi-etapa mais difíceis. Melhor papel: loop de execução principal para sistemas de agentes conscientes de custo.
Gemini 3.1 Flash Lite Preview (Google): camada de eficiência para alto volume
Melhor em: extração, aumento de recuperação RAG, loops de assistente e tráfego barato de agentes a $0,25/M de entrada, $1,50/M de saída. Onde fica devendo: não foi feito para planejamento profundo ou cadeias complexas de chamadas de ferramentas. Melhor papel: trabalho de sub-agente em segundo plano, processamento de documentos, classificação.
DeepSeek V3.2 (DeepSeek): o cavalo de batalha econômico
Melhor em: uso agêntico de ferramentas a $0,26/M de entrada, $0,38/M de saída — entre os modelos capazes mais baratos disponíveis. Contexto de 163.840 é suficiente para a maioria dos loops de agente. Onde fica devendo: não é o padrão premium mais seguro para cada tarefa difícil de planejamento. O preço mais baixo de saída reflete uma geração mais leve. Melhor papel: loops de agente em produção sensíveis a custo, chamadas de ferramentas em lote, trabalho agêntico de alto volume.
GPT-5 Mini (OpenAI): execução estruturada compacta
Melhor em: seguimento limpo de instruções, geração de saída estruturada, contexto de 400k a $0,25/M de entrada, $2/M de saída. Onde fica devendo: raciocínio mais leve significa que tem dificuldade com recuperação complexa multi-etapa. Melhor papel: etapas de execução estruturada, sub-tarefas críticas de formato, geração limpa de JSON que reduz falhas de parser a jusante.
GPT-5.4 Nano (OpenAI): modelo de segundo plano para velocidade crítica
Melhor em: classificação, ranqueamento, extração, execução de sub-agentes a $0,20/M de entrada, $1,25/M de saída com contexto de 400k. Onde fica devendo: não foi projetado para planejamento profundo ou raciocínio nuançado. Melhor papel: tarefas de alta frequência em segundo plano onde latência de inferência e custo por chamada importam mais do que profundidade de raciocínio.
DeepSeek R1 (DeepSeek): especialista em raciocínio deliberado
Melhor em: raciocínio explícito passo a passo com tokens de raciocínio abertos. Útil quando você precisa de cadeia de pensamento auditável para depurar decisões de agentes. Onde fica devendo: contexto de 64k é limitante para sistemas de agentes que acumulam históricos longos. Mais lento e ruidoso que modelos sem raciocínio, menos eficiente para tráfego rotineiro. Melhor papel: escalação seletiva quando um modelo padrão falha e você precisa de raciocínio visível para diagnosticar o porquê.
Qwen3 Coder Next (Alibaba): agente de código com pesos abertos
Melhor em: agentes de código sempre ativos a $0,12/M de entrada, $0,75/M de saída com contexto de 262.144. Pesos abertos significam que a implantação auto-hospedada é possível, o que importa para equipes com restrições de conformidade ou orçamentos de GPU que favorecem custo fixo em vez de custo por token. Onde fica devendo: raciocínio geral mais limitado que as opções premium. Melhor papel: loops de agente de código econômicos, infraestrutura de agentes auto-hospedada.
OpenRouter Auto: a própria camada de roteamento
OpenRouter Auto não é mais um modelo. É uma camada de roteamento que o OpenRouter recomenda explicitamente para apps como o OpenClaw. A lógica é simples: sistemas de agentes contêm tanto tarefas triviais quanto difíceis. O Auto direciona tarefas baratas para modelos baratos e tarefas difíceis para modelos capazes. Isso importa porque a maioria dos tokens em uma sessão de agente não são tokens de planejamento — são extração, verificações de status, formatação e coordenação de sub-agentes. Pagar preços premium por todos eles é o erro de custo mais comum na implantação de agentes.
O padrão entre os principais apps de agentes do OpenRouter é consistente: eles não escolhem um modelo. Eles escolhem uma stack. Um planejador (Claude Sonnet 4.6 ou Gemini 3.1 Pro Preview para decisões difíceis), um cavalo de batalha de execução (Kimi K2.5, Gemini 3 Flash Preview ou DeepSeek V3.2 dependendo do orçamento), uma camada de segundo plano (GPT-5.4 Nano, Gemini 3.1 Flash Lite Preview ou Qwen3 Coder Next para trabalho barato de alto volume) e, opcionalmente, um caminho de escalação de raciocínio (DeepSeek R1 quando depuração explícita com cadeia de pensamento é necessária).
Sua stack deve refletir sua distribuição de carga de trabalho, não o favorito atual do ranking. Se 80% dos tokens do seu agente são extração e formatação, otimizar a camada de segundo plano economiza mais dinheiro do que trocar de planejador. Se seu modo de falha são planos multi-etapa ruins que cascateiam em loops caros de novas tentativas, investir em um planejador melhor se paga sozinho.
Use o FindLLM Explore para filtrar pelas métricas que realmente importam para a sua divisão — janela de contexto, faixa de preço, suporte a saída estruturada, benchmarks de código — ou execute o LLM Selector com suas restrições específicas. A resposta certa depende da sua distribuição de tokens, não de qual modelo foi lançado mais recentemente.