1.3 Componentes do Agente | Trilha 1

🧠 LLM: o cérebro do agente

O LLM é o componente central — é ele que raciocina, decide e gera as ações. Mas nem todo LLM serve igualmente para todo tipo de agente. Escolher o modelo errado é como contratar o profissional errado para um projeto.

🧠 Critérios de seleção de modelo

Context Window

Determina quanto histórico de loop pode ser mantido

• Claude: 200k tokens
• GPT-4o: 128k tokens
• Gemini 1.5: 1M tokens

Raciocínio vs. Velocidade

Trade-off central em arquitetura agentic

• Opus: máximo raciocínio, lento
• Sonnet: equilíbrio ideal na maioria
• Haiku: velocidade, tarefas simples

Custo por Token

Num loop com 20 iterações, se multiplica rápido

• Haiku: ~$0.25/M tokens
• Sonnet: ~$3/M tokens
• Opus: ~$15/M tokens

💡 Estratégia de modelo híbrida

Não use o mesmo modelo para tudo. A arquitetura mais eficiente usa modelos diferentes por tipo de task:

Planejamento

Sonnet / Opus

Alta complexidade

Execução

Sonnet

Equilíbrio custo/qualidade

Verificação

Haiku

Rápido e barato

💾 Memória de Curto Prazo

A memória de curto prazo de um agente é o buffer de conversa — o histórico de mensagens que fica no contexto durante a execução. É temporária, limitada pela janela de tokens do modelo, e é zerada quando a execução termina.

🗂️ Como a memória curta é gerenciada

Buffer completo (início)

Todas as mensagens ficam no contexto. Simples, mas cresce linearmente com cada iteração do loop.

Sliding window (médio prazo)

Mantém apenas as últimas N mensagens. Eficiente, mas pode perder contexto importante do início da execução.

Resumo automático (longo prazo)

Quando o buffer enche, o próprio LLM condensa o histórico em um resumo que substitui as mensagens antigas. Melhor custo-benefício para loops longos.

📊 Impacto no custo

A memória curta é cobrada em cada iteração porque todos os tokens do contexto são reprocessados pelo modelo a cada chamada.

•Iteração 1: 500 tokens no contexto → custo X
•Iteração 5: 2.500 tokens → custo 5X
•Iteração 20: 10.000 tokens → custo 20X
•Conclusão: sliding window ou summarização são obrigatórios para loops longos

🗄️ Memória de Longo Prazo

A memória de longo prazo persiste entre execuções. É onde o agente armazena conhecimento acumulado, histórico de interações, preferências do usuário e documentos de referência. Sem ela, o agente começa do zero toda vez.

🗄️ Tipos de memória longa

Banco Vetorial (RAG)

Armazena documentos como embeddings. Busca semântica recupera os mais relevantes para o contexto atual.

• FAISS — local, open-source, rápido

• Chroma — local, fácil de usar

• Pinecone — cloud, escala infinita

• Weaviate — híbrido + filtros

Banco Relacional / KV

Para dados estruturados: preferências, histórico de ações, resultados passados, configurações por usuário.

• SQLite — local, sem servidor

• PostgreSQL — produção, relações

• Redis — cache, sessões rápidas

• DynamoDB — serverless, escala

🔍 Como funciona o RAG (Retrieval-Augmented Generation)

1 Documentos são transformados em embeddings (vetores numéricos) e armazenados

2 Na execução, a query do agente também vira embedding

3 O banco busca os documentos com maior similaridade semântica (cosine similarity)

4 Os top-K documentos são injetados no contexto como conhecimento relevante

Resultado: agente com acesso a base de conhecimento ilimitada sem explodir o contexto

💡 Quando usar qual tipo de memória

Use banco vetorial (RAG) para:

• Documentação técnica e manuais
• Base de conhecimento da empresa
• Histórico de conversas por similaridade

Use banco relacional para:

• Preferências e configurações por usuário
• Histórico de ações executadas
• Métricas e resultados estruturados

🔧 Tools: as mãos do agente

As tools são as capacidades de ação do agente — são elas que permitem sair do mundo do texto para o mundo real. Uma tool bem definida é a diferença entre um agente que funciona e um que alucina tentando fazer o que não pode.

📋 Anatomia de uma Tool bem definida

# Tool schema no formato Anthropic

{

"name": "send_email",

"description": "Envia um email para um destinatário. Use apenas quando o usuário explicitamente pediu para enviar um email. NUNCA use para notificações internas.",

"input_schema": {

"type": "object",

"properties": {

"to": {"type": "string", "description": "Email do destinatário"},

"subject": {"type": "string"},

"body": {"type": "string"}

"required": ["to", "subject", "body"]

}

A description é a instrução de uso da tool. Ela orienta o modelo sobre quando usar e quando NÃO usar — isso é segurança.

✓ Tools bem projetadas

✓ Nome claro e descritivo (verbo + objeto)
✓ Description inclui quando NÃO usar
✓ Tipos de input explicitamente definidos
✓ Retorna erro estruturado, nunca exceção crua
✓ Uma responsabilidade por tool (princípio SRP)

✗ Erros comuns em Tools

✗ Nomes ambíguos como "process_data"
✗ Description vazia ou apenas o nome repetido
✗ Tool que faz 5 coisas diferentes
✗ Sem tratamento de erro — exceção vaza pro contexto
✗ Parâmetros opcionais sem valor padrão documentado

📊 MCP: Model Context Protocol

O MCP é o padrão aberto da Anthropic para integrar tools a qualquer agente. Em 2025, a OpenAI também adotou o protocolo, tornando-o o padrão de facto do setor. Com MCP, você define tools uma vez e qualquer agente compatível pode usar.

Preview completo no Módulo 1.5 — Ecossistema em 2026.

📋 Planejamento: dividir para conquistar

Um agente sem planejamento é um agente reativo — executa uma ação por vez sem visão do todo. O componente de planejamento transforma um objetivo complexo em uma sequência estruturada de sub-tarefas executáveis.

🗺️ Task Decomposition na prática

Objetivo: "Crie um relatório de mercado sobre IA generativa para apresentar ao board na sexta-feira"

1 Pesquisar dados de mercado (paralelo com 2)

1a Buscar relatórios de analistas (Gartner, IDC, McKinsey)

1b Coletar dados de funding e M&A de 2025-2026

2 Análise competitiva (paralelo com 1)

3 Sintetizar insights (depende de 1 e 2)

4 Gerar slides com visualizações (depende de 3)

Execução Paralela

Sub-tarefas independentes rodam ao mesmo tempo. Reduz tempo total drasticamente em tasks com muita pesquisa.

Exemplo: pesquisa em 5 fontes simultâneas em vez de sequencial

Execução Sequencial

Sub-tarefas com dependências rodam em ordem. Garante que cada etapa usa os resultados corretos das anteriores.

Exemplo: gerar slides só depois de ter os dados analisados

🛡️ Governança: o contrato do agente

Governança não é burocracia — é a diferença entre um agente confiável em produção e um sistema que pode causar danos irreparáveis. O contrato do agente define o que ele pode fazer, como reporta e como é auditado.

🛡️ Os 6 pilares da governança agentic

🔐

Permissões mínimas

O agente só acessa o que precisa para a task atual. Permissão extra = superfície de ataque extra.

💰

Budget cap

Limite de gasto em tokens e chamadas de API por execução. Define antes de iniciar, monitore em tempo real.

📋

Audit log

Todo tool call, resultado e decisão registrado com timestamp. Inegociável em produção.

👤

Human-in-the-loop

Pontos de aprovação humana para ações de alto impacto. Defina o threshold antes de build.

↩️

Ações reversíveis preferidas

Sempre prefira uma ação que pode ser desfeita. Deletar um arquivo vs. mover para lixeira.

🧪

Sandbox antes de produção

Teste com dados e sistemas de staging. Nunca valide um agente novo diretamente em produção.

⚠️ Ações irreversíveis exigem aprovação humana

Crie uma lista explícita de ações que nunca podem ser executadas sem confirmação humana. Exemplos:

Deletar dados de produção permanentemente

Enviar comunicações em massa para clientes

Realizar transferências financeiras acima de limite

✅ Resumo do Módulo 1.3

✓

LLM como cérebro — escolha modelo por task; use híbrido para economizar sem sacrificar qualidade

✓

Memória curta gerenciada — sliding window e summarização evitam explosão de custo em loops longos

✓

RAG para memória longa — conhecimento ilimitado sem explodir o contexto; FAISS/Chroma para começar

✓

Tools bem definidas — description é a instrução de uso; inclua quando NÃO usar para evitar abusos

✓

Planejamento estruturado — task decomposition com dependências; paralelo onde possível, sequencial onde necessário

✓

Governança desde o início — 6 pilares: permissões mínimas, budget cap, audit log, HITL, reversibilidade, sandbox

Próximo Módulo:

1.4 — Vibe Coding vs. Agentic Engineering: quando cada abordagem faz sentido, como usar as duas juntas e como treinar seu julgamento para escolher a certa.

← Anterior: 1.2 O Loop Agentic Próximo: 1.4 Vibe Coding vs. Agentic →