MÓDULO 1.3

🧩 Componentes do Agente: As 5 Peças Essenciais

Todo agente é composto de peças específicas que trabalham juntas. Entender cada componente — e como eles se integram — é o que permite construir sistemas robustos em vez de gambiarras funcionais.

6
Tópicos
40
Minutos
Básico
Nível
Teoria
Tipo
1

🧠 LLM: o cérebro do agente

O LLM é o componente central — é ele que raciocina, decide e gera as ações. Mas nem todo LLM serve igualmente para todo tipo de agente. Escolher o modelo errado é como contratar o profissional errado para um projeto.

🧠 Critérios de seleção de modelo

Context Window

Determina quanto histórico de loop pode ser mantido

  • • Claude: 200k tokens
  • • GPT-4o: 128k tokens
  • • Gemini 1.5: 1M tokens

Raciocínio vs. Velocidade

Trade-off central em arquitetura agentic

  • • Opus: máximo raciocínio, lento
  • • Sonnet: equilíbrio ideal na maioria
  • • Haiku: velocidade, tarefas simples

Custo por Token

Num loop com 20 iterações, se multiplica rápido

  • • Haiku: ~$0.25/M tokens
  • • Sonnet: ~$3/M tokens
  • • Opus: ~$15/M tokens

💡 Estratégia de modelo híbrida

Não use o mesmo modelo para tudo. A arquitetura mais eficiente usa modelos diferentes por tipo de task:

Planejamento

Sonnet / Opus

Alta complexidade

Execução

Sonnet

Equilíbrio custo/qualidade

Verificação

Haiku

Rápido e barato

2

💾 Memória de Curto Prazo

A memória de curto prazo de um agente é o buffer de conversa — o histórico de mensagens que fica no contexto durante a execução. É temporária, limitada pela janela de tokens do modelo, e é zerada quando a execução termina.

🗂️ Como a memória curta é gerenciada

1

Buffer completo (início)

Todas as mensagens ficam no contexto. Simples, mas cresce linearmente com cada iteração do loop.

2

Sliding window (médio prazo)

Mantém apenas as últimas N mensagens. Eficiente, mas pode perder contexto importante do início da execução.

3

Resumo automático (longo prazo)

Quando o buffer enche, o próprio LLM condensa o histórico em um resumo que substitui as mensagens antigas. Melhor custo-benefício para loops longos.

📊 Impacto no custo

A memória curta é cobrada em cada iteração porque todos os tokens do contexto são reprocessados pelo modelo a cada chamada.

  • Iteração 1: 500 tokens no contexto → custo X
  • Iteração 5: 2.500 tokens → custo 5X
  • Iteração 20: 10.000 tokens → custo 20X
  • Conclusão: sliding window ou summarização são obrigatórios para loops longos
3

🗄️ Memória de Longo Prazo

A memória de longo prazo persiste entre execuções. É onde o agente armazena conhecimento acumulado, histórico de interações, preferências do usuário e documentos de referência. Sem ela, o agente começa do zero toda vez.

🗄️ Tipos de memória longa

Banco Vetorial (RAG)

Armazena documentos como embeddings. Busca semântica recupera os mais relevantes para o contexto atual.

• FAISS — local, open-source, rápido

• Chroma — local, fácil de usar

• Pinecone — cloud, escala infinita

• Weaviate — híbrido + filtros

Banco Relacional / KV

Para dados estruturados: preferências, histórico de ações, resultados passados, configurações por usuário.

• SQLite — local, sem servidor

• PostgreSQL — produção, relações

• Redis — cache, sessões rápidas

• DynamoDB — serverless, escala

🔍 Como funciona o RAG (Retrieval-Augmented Generation)

1 Documentos são transformados em embeddings (vetores numéricos) e armazenados
2 Na execução, a query do agente também vira embedding
3 O banco busca os documentos com maior similaridade semântica (cosine similarity)
4 Os top-K documentos são injetados no contexto como conhecimento relevante

Resultado: agente com acesso a base de conhecimento ilimitada sem explodir o contexto

💡 Quando usar qual tipo de memória

Use banco vetorial (RAG) para:

  • • Documentação técnica e manuais
  • • Base de conhecimento da empresa
  • • Histórico de conversas por similaridade

Use banco relacional para:

  • • Preferências e configurações por usuário
  • • Histórico de ações executadas
  • • Métricas e resultados estruturados
4

🔧 Tools: as mãos do agente

As tools são as capacidades de ação do agente — são elas que permitem sair do mundo do texto para o mundo real. Uma tool bem definida é a diferença entre um agente que funciona e um que alucina tentando fazer o que não pode.

📋 Anatomia de uma Tool bem definida

# Tool schema no formato Anthropic

{

"name": "send_email",

"description": "Envia um email para um destinatário. Use apenas quando o usuário explicitamente pediu para enviar um email. NUNCA use para notificações internas.",

"input_schema": {

"type": "object",

"properties": {

"to": {"type": "string", "description": "Email do destinatário"},

"subject": {"type": "string"},

"body": {"type": "string"}

},

"required": ["to", "subject", "body"]

}

}

A description é a instrução de uso da tool. Ela orienta o modelo sobre quando usar e quando NÃO usar — isso é segurança.

✓ Tools bem projetadas

  • Nome claro e descritivo (verbo + objeto)
  • Description inclui quando NÃO usar
  • Tipos de input explicitamente definidos
  • Retorna erro estruturado, nunca exceção crua
  • Uma responsabilidade por tool (princípio SRP)

✗ Erros comuns em Tools

  • Nomes ambíguos como "process_data"
  • Description vazia ou apenas o nome repetido
  • Tool que faz 5 coisas diferentes
  • Sem tratamento de erro — exceção vaza pro contexto
  • Parâmetros opcionais sem valor padrão documentado

📊 MCP: Model Context Protocol

O MCP é o padrão aberto da Anthropic para integrar tools a qualquer agente. Em 2025, a OpenAI também adotou o protocolo, tornando-o o padrão de facto do setor. Com MCP, você define tools uma vez e qualquer agente compatível pode usar.

Preview completo no Módulo 1.5 — Ecossistema em 2026.

5

📋 Planejamento: dividir para conquistar

Um agente sem planejamento é um agente reativo — executa uma ação por vez sem visão do todo. O componente de planejamento transforma um objetivo complexo em uma sequência estruturada de sub-tarefas executáveis.

🗺️ Task Decomposition na prática

Objetivo: "Crie um relatório de mercado sobre IA generativa para apresentar ao board na sexta-feira"

1 Pesquisar dados de mercado (paralelo com 2)
1a Buscar relatórios de analistas (Gartner, IDC, McKinsey)
1b Coletar dados de funding e M&A de 2025-2026
2 Análise competitiva (paralelo com 1)
3 Sintetizar insights (depende de 1 e 2)
4 Gerar slides com visualizações (depende de 3)

Execução Paralela

Sub-tarefas independentes rodam ao mesmo tempo. Reduz tempo total drasticamente em tasks com muita pesquisa.

Exemplo: pesquisa em 5 fontes simultâneas em vez de sequencial

Execução Sequencial

Sub-tarefas com dependências rodam em ordem. Garante que cada etapa usa os resultados corretos das anteriores.

Exemplo: gerar slides só depois de ter os dados analisados

6

🛡️ Governança: o contrato do agente

Governança não é burocracia — é a diferença entre um agente confiável em produção e um sistema que pode causar danos irreparáveis. O contrato do agente define o que ele pode fazer, como reporta e como é auditado.

🛡️ Os 6 pilares da governança agentic

🔐

Permissões mínimas

O agente só acessa o que precisa para a task atual. Permissão extra = superfície de ataque extra.

💰

Budget cap

Limite de gasto em tokens e chamadas de API por execução. Define antes de iniciar, monitore em tempo real.

📋

Audit log

Todo tool call, resultado e decisão registrado com timestamp. Inegociável em produção.

👤

Human-in-the-loop

Pontos de aprovação humana para ações de alto impacto. Defina o threshold antes de build.

↩️

Ações reversíveis preferidas

Sempre prefira uma ação que pode ser desfeita. Deletar um arquivo vs. mover para lixeira.

🧪

Sandbox antes de produção

Teste com dados e sistemas de staging. Nunca valide um agente novo diretamente em produção.

⚠️ Ações irreversíveis exigem aprovação humana

Crie uma lista explícita de ações que nunca podem ser executadas sem confirmação humana. Exemplos:

Deletar dados de produção permanentemente
Enviar comunicações em massa para clientes
Realizar transferências financeiras acima de limite

Resumo do Módulo 1.3

LLM como cérebro — escolha modelo por task; use híbrido para economizar sem sacrificar qualidade
Memória curta gerenciada — sliding window e summarização evitam explosão de custo em loops longos
RAG para memória longa — conhecimento ilimitado sem explodir o contexto; FAISS/Chroma para começar
Tools bem definidas — description é a instrução de uso; inclua quando NÃO usar para evitar abusos
Planejamento estruturado — task decomposition com dependências; paralelo onde possível, sequencial onde necessário
Governança desde o início — 6 pilares: permissões mínimas, budget cap, audit log, HITL, reversibilidade, sandbox

Próximo Módulo:

1.4 — Vibe Coding vs. Agentic Engineering: quando cada abordagem faz sentido, como usar as duas juntas e como treinar seu julgamento para escolher a certa.