Metodologia

Fontes de Dados

O FindLLM agrega dados de múltiplas fontes confiáveis para fornecer uma visão abrangente do cenário de LLMs.

Artificial Analysis — benchmarks, scores de qualidade, métricas de velocidade e medições de tempo até o primeiro token.
OpenRouter — preços em tempo real, tamanhos de contexto, disponibilidade de provedores e metadados de modelos.
HuggingFace — downloads, scores de tendência, licenças, contagem de parâmetros e metadados open source.

Índice de Qualidade

O Índice de Qualidade é um score composto (0–100) criado pelo Artificial Analysis que reflete o desempenho de um modelo em múltiplos benchmarks. Fornece uma medida única e comparável da capacidade geral do modelo.

Benchmarks

Rastreamos os seguintes benchmarks:

MMLU-Pro — Compreensão massiva de tarefas múltiplas com questões mais difíceis.
GPQA Diamond — Questões científicas de nível pós-graduação na maior dificuldade.
HumanEval / LiveCodeBench — Geração de código e resolução de problemas.
MATH / AIME — Raciocínio matemático em nível de competição.
IFEval — Seguimento de instruções em tarefas diversas.
MT-Bench — Qualidade de conversa multi-turno.
RULER — Recuperação e utilização de contexto longo.

Métricas de Velocidade

A velocidade de saída é medida em tokens por segundo (tok/s) conforme reportado pelo Artificial Analysis. O Tempo até o Primeiro Token (TTFT) mede a latência antes do primeiro token aparecer. Ambos são medidos em condições padronizadas.

Preços

Os preços são obtidos do OpenRouter e representam o preço mediano entre provedores. O preço combinado usa uma proporção de 3:1 entrada-para-saída, refletindo padrões típicos de uso. Todos os preços são por milhão de tokens.

Frequência de Atualização

Preços do OpenRouter e metadados de modelos do HuggingFace são atualizados a cada hora. Dados de benchmark do Artificial Analysis são atualizados a cada 6 horas. Modelos de mídia IA são atualizados a cada 8 horas.

Glossário de Termos

Índice de Qualidade: Score composto de benchmark (0–100) do Artificial Analysis.
Preço Combinado: Média ponderada dos preços de tokens de entrada e saída (proporção 3:1).
tok/s: Tokens por segundo, a velocidade de geração de saída.
TTFT: Tempo até o Primeiro Token, a latência antes do primeiro token de resposta chegar.
Janela de Contexto: Número máximo de tokens que um modelo pode processar em uma única requisição.
Open Source: Modelos com pesos publicamente disponíveis para download e auto-hospedagem.
Provedor: Um serviço que hospeda e serve o modelo via API (ex: OpenRouter, Together, Fireworks).
Parâmetros: O número de pesos treináveis em um modelo, indicando seu tamanho e capacidade.