🧠 LLM: o cérebro do agente
O LLM é o componente central — é ele que raciocina, decide e gera as ações. Mas nem todo LLM serve igualmente para todo tipo de agente. Escolher o modelo errado é como contratar o profissional errado para um projeto.
🧠 Critérios de seleção de modelo
Context Window
Determina quanto histórico de loop pode ser mantido
- • Claude: 200k tokens
- • GPT-4o: 128k tokens
- • Gemini 1.5: 1M tokens
Raciocínio vs. Velocidade
Trade-off central em arquitetura agentic
- • Opus: máximo raciocínio, lento
- • Sonnet: equilíbrio ideal na maioria
- • Haiku: velocidade, tarefas simples
Custo por Token
Num loop com 20 iterações, se multiplica rápido
- • Haiku: ~$0.25/M tokens
- • Sonnet: ~$3/M tokens
- • Opus: ~$15/M tokens
💡 Estratégia de modelo híbrida
Não use o mesmo modelo para tudo. A arquitetura mais eficiente usa modelos diferentes por tipo de task:
Planejamento
Sonnet / Opus
Alta complexidade
Execução
Sonnet
Equilíbrio custo/qualidade
Verificação
Haiku
Rápido e barato
💾 Memória de Curto Prazo
A memória de curto prazo de um agente é o buffer de conversa — o histórico de mensagens que fica no contexto durante a execução. É temporária, limitada pela janela de tokens do modelo, e é zerada quando a execução termina.
🗂️ Como a memória curta é gerenciada
Buffer completo (início)
Todas as mensagens ficam no contexto. Simples, mas cresce linearmente com cada iteração do loop.
Sliding window (médio prazo)
Mantém apenas as últimas N mensagens. Eficiente, mas pode perder contexto importante do início da execução.
Resumo automático (longo prazo)
Quando o buffer enche, o próprio LLM condensa o histórico em um resumo que substitui as mensagens antigas. Melhor custo-benefício para loops longos.
📊 Impacto no custo
A memória curta é cobrada em cada iteração porque todos os tokens do contexto são reprocessados pelo modelo a cada chamada.
- •Iteração 1: 500 tokens no contexto → custo X
- •Iteração 5: 2.500 tokens → custo 5X
- •Iteração 20: 10.000 tokens → custo 20X
- •Conclusão: sliding window ou summarização são obrigatórios para loops longos
🗄️ Memória de Longo Prazo
A memória de longo prazo persiste entre execuções. É onde o agente armazena conhecimento acumulado, histórico de interações, preferências do usuário e documentos de referência. Sem ela, o agente começa do zero toda vez.
🗄️ Tipos de memória longa
Banco Vetorial (RAG)
Armazena documentos como embeddings. Busca semântica recupera os mais relevantes para o contexto atual.
• FAISS — local, open-source, rápido
• Chroma — local, fácil de usar
• Pinecone — cloud, escala infinita
• Weaviate — híbrido + filtros
Banco Relacional / KV
Para dados estruturados: preferências, histórico de ações, resultados passados, configurações por usuário.
• SQLite — local, sem servidor
• PostgreSQL — produção, relações
• Redis — cache, sessões rápidas
• DynamoDB — serverless, escala
🔍 Como funciona o RAG (Retrieval-Augmented Generation)
Resultado: agente com acesso a base de conhecimento ilimitada sem explodir o contexto
💡 Quando usar qual tipo de memória
Use banco vetorial (RAG) para:
- • Documentação técnica e manuais
- • Base de conhecimento da empresa
- • Histórico de conversas por similaridade
Use banco relacional para:
- • Preferências e configurações por usuário
- • Histórico de ações executadas
- • Métricas e resultados estruturados
🔧 Tools: as mãos do agente
As tools são as capacidades de ação do agente — são elas que permitem sair do mundo do texto para o mundo real. Uma tool bem definida é a diferença entre um agente que funciona e um que alucina tentando fazer o que não pode.
📋 Anatomia de uma Tool bem definida
# Tool schema no formato Anthropic
{
"name": "send_email",
"description": "Envia um email para um destinatário. Use apenas quando o usuário explicitamente pediu para enviar um email. NUNCA use para notificações internas.",
"input_schema": {
"type": "object",
"properties": {
"to": {"type": "string", "description": "Email do destinatário"},
"subject": {"type": "string"},
"body": {"type": "string"}
},
"required": ["to", "subject", "body"]
}
}
A description é a instrução de uso da tool. Ela orienta o modelo sobre quando usar e quando NÃO usar — isso é segurança.
✓ Tools bem projetadas
- ✓ Nome claro e descritivo (verbo + objeto)
- ✓ Description inclui quando NÃO usar
- ✓ Tipos de input explicitamente definidos
- ✓ Retorna erro estruturado, nunca exceção crua
- ✓ Uma responsabilidade por tool (princípio SRP)
✗ Erros comuns em Tools
- ✗ Nomes ambíguos como "process_data"
- ✗ Description vazia ou apenas o nome repetido
- ✗ Tool que faz 5 coisas diferentes
- ✗ Sem tratamento de erro — exceção vaza pro contexto
- ✗ Parâmetros opcionais sem valor padrão documentado
📊 MCP: Model Context Protocol
O MCP é o padrão aberto da Anthropic para integrar tools a qualquer agente. Em 2025, a OpenAI também adotou o protocolo, tornando-o o padrão de facto do setor. Com MCP, você define tools uma vez e qualquer agente compatível pode usar.
Preview completo no Módulo 1.5 — Ecossistema em 2026.
📋 Planejamento: dividir para conquistar
Um agente sem planejamento é um agente reativo — executa uma ação por vez sem visão do todo. O componente de planejamento transforma um objetivo complexo em uma sequência estruturada de sub-tarefas executáveis.
🗺️ Task Decomposition na prática
Objetivo: "Crie um relatório de mercado sobre IA generativa para apresentar ao board na sexta-feira"
Execução Paralela
Sub-tarefas independentes rodam ao mesmo tempo. Reduz tempo total drasticamente em tasks com muita pesquisa.
Exemplo: pesquisa em 5 fontes simultâneas em vez de sequencial
Execução Sequencial
Sub-tarefas com dependências rodam em ordem. Garante que cada etapa usa os resultados corretos das anteriores.
Exemplo: gerar slides só depois de ter os dados analisados
🛡️ Governança: o contrato do agente
Governança não é burocracia — é a diferença entre um agente confiável em produção e um sistema que pode causar danos irreparáveis. O contrato do agente define o que ele pode fazer, como reporta e como é auditado.
🛡️ Os 6 pilares da governança agentic
Permissões mínimas
O agente só acessa o que precisa para a task atual. Permissão extra = superfície de ataque extra.
Budget cap
Limite de gasto em tokens e chamadas de API por execução. Define antes de iniciar, monitore em tempo real.
Audit log
Todo tool call, resultado e decisão registrado com timestamp. Inegociável em produção.
Human-in-the-loop
Pontos de aprovação humana para ações de alto impacto. Defina o threshold antes de build.
Ações reversíveis preferidas
Sempre prefira uma ação que pode ser desfeita. Deletar um arquivo vs. mover para lixeira.
Sandbox antes de produção
Teste com dados e sistemas de staging. Nunca valide um agente novo diretamente em produção.
⚠️ Ações irreversíveis exigem aprovação humana
Crie uma lista explícita de ações que nunca podem ser executadas sem confirmação humana. Exemplos:
✅ Resumo do Módulo 1.3
Próximo Módulo:
1.4 — Vibe Coding vs. Agentic Engineering: quando cada abordagem faz sentido, como usar as duas juntas e como treinar seu julgamento para escolher a certa.