Por que dois apps que usam o mesmo modelo — como o Claude Sonnet — parecem ter performances completamente diferentes? A resposta está em o que fica ao redor do modelo.
Você já usou o Claude em dois contextos diferentes e teve a impressão de que um era muito mais "inteligente" que o outro? Spoiler: não foi o modelo que mudou.
É "apenas" a capacidade de processar linguagem e gerar texto. Ele é o mesmo em múltiplas aplicações. Claude Sonnet 4.6 é Claude Sonnet 4.6 — em qualquer lugar.
O que muda radicalmente é: o contexto enviado ao modelo, as ferramentas disponíveis, como a memória é gerenciada, e quão bem o prompt é formatado.
O resultado que o usuário vê é a soma do modelo + toda a infraestrutura ao redor. A maioria das diferenças vem da infraestrutura, não do modelo em si.
Pense em um chef de cozinha (o LLM). Dois restaurantes contratam o mesmo chef estrelado. Um restaurante tem ingredientes frescos, cozinha equipada e cardápio bem planejado. O outro tem ingredientes velhos, fogão quebrado e nenhum sous-chef. O chef é o mesmo — a qualidade do prato, não.
Esses três termos são frequentemente confundidos. Veja as diferenças reais e quando usar cada um.
É como a diferença entre responder de cabeça (LLM) ou rabiscar no papel, fazer rascunho e revisar antes de responder (Reasoning). Para problemas difíceis, o rascunho importa.
| Característica | LLM | Reasoning | Agente |
|---|---|---|---|
| Velocidade de resposta | ⚡ Alta | 🐢 Lenta | 🔄 Variável |
| Acesso a ferramentas | ❌ Não | ❌ Não (por padrão) | ✅ Sim |
| Raciocínio explícito | ❌ Implícito | ✅ Chain of Thought | ✅ Depende do modelo |
| Custo por token | 💲 Baixo | 💲💲💲 Alto | 💲💲 Médio-alto |
| Ideal para | Tarefas simples, chat | Problemas lógicos complexos | Automação, coding, workflows |
"Harness" vem do inglês e significa o conjunto de arnês, suporte, estrutura de controle. No contexto de IA para código, é tudo que envolve o modelo para que ele funcione como um agente de programação eficiente.
O LLM é o guitarrista virtuoso. O harness é: o palco, o sistema de som, os roadies que afinam os instrumentos, o setlist organizado, o ponto na orelha do artista e a iluminação sincronizada. Sem o harness, o virtuoso toca bem — mas não dá um show de rock.
Todo agente de coding de alta qualidade é construído sobre esses seis pilares. Clique em cada um para expandir a explicação completa.
Um dos erros mais comuns em agentes mal implementados é enviar contexto estático ou desatualizado ao modelo. O agente precisa saber o que existe no repositório agora: quais arquivos existem, quais funções foram definidas, qual é a estrutura de pastas, quais imports são usados.
Sem isso, o modelo "alucina" — inventa funções que não existem, usa imports que não estão instalados, ou sobrescreve código que o dev acabou de escrever.
Os provedores de LLM (Anthropic, OpenAI) oferecem prompt caching: se o começo do prompt for idêntico entre requisições, o processamento é cacheado e o custo cai drasticamente (até 90% mais barato e mais rápido).
Agentes bem construídos organizam o prompt assim: contexto estável primeiro (regras, estrutura do repo, histórico) e conteúdo dinâmico por último (a instrução atual). Isso maximiza o hit de cache.
Ferramentas (tool calls / function calling) são a ponte entre o LLM e o mundo real. Sem elas, o modelo só gera texto. Com elas, ele pode agir.
Ferramentas mal projetadas geram saídas verbosas e confusas que "sujam" o contexto. As melhores ferramentas retornam informação mínima e precisa — exatamente o que o modelo precisa.
Conforme o agente age em múltiplos passos, o contexto (a janela de tokens) cresce. Se não for gerenciado, o modelo começa a "esquecer" informações antigas — ou pior, fica lento e caro por processar tokens irrelevantes.
Imagine trabalhar com uma mesa que tem espaço limitado. A cada passo você joga mais papéis em cima. No começo é fácil encontrar coisas. Depois de 50 papéis, você está perdido. A solução é organizar, descartar e arquivar conforme você trabalha.
Estratégias para controlar o inchaço:
LLMs são stateless por natureza — cada chamada de API é independente. Mas um agente de qualidade mantém memória persistente entre sessões: o que foi feito, quais decisões foram tomadas, quais erros foram encontrados.
Tipos de memória em agentes:
Agentes complexos não fazem tudo sozinhos. Eles orquestram subagentes — instâncias menores e especializadas que executam subtarefas em paralelo ou sequência.
Exemplos de delegação:
Ambos podem usar o Claude Sonnet. A diferença está nos 6 componentes — na qualidade do harness de cada um.
Seis ideias que vão mudar como você pensa sobre ferramentas de IA para desenvolvimento.
O modelo base é apenas um componente. O que você experimenta é o modelo + o harness + as ferramentas + a memória + a orquestração.
Empresas que constroem agentes melhores não têm modelos melhores — têm harnesses mais inteligentes. Esse é o campo de batalha real.
Garbage in, garbage out. Um agente com contexto rico e bem estruturado supera qualquer agente com contexto pobre — independente do modelo.
Prompt caching bem implementado pode reduzir o custo de agentes em até 90%. Estruturar o prompt corretamente não é detalhe — é arquitetura.
Subagentes especializados resolvem o problema do inchaço de contexto e permitem paralelismo. Agentes monolíticos são o anti-padrão.
Ao escolher uma ferramenta de IA, pergunte: "Como ela injeta contexto? Que ferramentas tem? Como gerencia memória?" — não apenas "Que modelo usa?"
Agente Excelente = LLM Capaz
+ Contexto em tempo real
+ Prompt bem estruturado com cache
+ Ferramentas precisas
+ Contexto sem inchaço
+ Memória persistente
+ Delegação para subagentes