MÓDULO 6.8 Trilha 6 — Enterprise e Produto

Cases Reais de Agentic Enterprise

Análise de implementações reais no Azure AI Studio, OpenAI Enterprise, Databricks e casos brasileiros — com lições críticas extraídas de cada um.

📚

~60 min

Cases Analisados

Lições Universais

Análises Críticas

Avançado

Nível

Case 1 — Azure AI Studio + Prompt Flow

☁️

Contexto: Banco de Varejo — Pipeline de Análise de Documentos

Implementação com Azure AI Studio e Prompt Flow para processamento de contratos

Um banco de varejo de médio porte usou o Azure AI Studio com Prompt Flow para construir um pipeline agentic de análise de contratos de crédito imobiliário. Antes do agente, 8 analistas processavam 120 contratos/dia com taxa de erro de 3,2%. O objetivo era escalar para 1.000 contratos/dia mantendo acurácia acima de 99%.

Arquitetura do Prompt Flow

# Fluxo Prompt Flow — 5 nós sequenciais

Nó 1: document_intake — OCR + normalização do PDF do contrato

Nó 2: entity_extraction — GPT-4o extrai partes, valores, prazos, garantias

Nó 3: compliance_check — Claude valida contra regras BACEN/resolução 4.966

Nó 4: risk_scoring — modelo de risco proprietário (Azure ML endpoint)

Nó 5: human_review_gate — score < 0.85 → fila humana; acima → auto-aprovação

8.3x

Aumento de throughput

120 → 1.000 contratos/dia

99.7%

Acurácia pós-deploy

vs 96.8% humano puro

R$2.1M

Economia anual

Redução de headcount + erros

O que funcionou bem

✓Prompt Flow com DAG visual acelerou iteração
✓Azure AI Content Safety bloqueou jailbreaks automaticamente
✓Human-in-the-loop no nó 5 manteve compliance BACEN
✓Integração nativa com Azure Active Directory (RBAC)

Desafios encontrados

✗Latência alta em contratos com muitas páginas (>50s)
✗Custo por contrato 3x acima do previsto no primeiro mês
✗Hallucination em contratos com linguagem não-padrão (12%)
✗Lock-in em Azure dificultou avaliação de alternativas

Lição do Case 1

O maior aprendizado foi sobre o custo de hallucination em domínio jurídico. Um contrato com cláusula extraída incorretamente e aprovado pelo agente gerou uma disputa de R$450k. A solução foi adicionar um nó de validação cruzada entre dois modelos (GPT-4o e Claude) — concordância total obrigatória para auto-aprovação. O custo adicional de ~18% foi justificado pela eliminação de erros críticos.

Case 2 — OpenAI Enterprise Controls

🤖

Contexto: Consultoria de Estratégia — Agente de Pesquisa com Assistants API

Multi-agent com Assistants API e File Search para análise de mercado

Uma consultoria de estratégia de grande porte implementou um sistema multi-agente usando a OpenAI Assistants API com File Search para acelerar pesquisas de mercado. Antes: 2 analistas, 2 semanas por relatório. Objetivo: 1 analista, 2 dias por relatório.

Arquitetura Multi-Agente com Assistants API

# Sistema de 3 agentes especializados com handoff

Agent 1: ResearchAgent

tools: [file_search, web_search]

vector_store: 50k documentos internos da consultoria

saída: research_brief.json com fontes citadas

Agent 2: AnalysisAgent

tools: [code_interpreter, file_search]

input: research_brief.json do Agent 1

saída: financial_model.xlsx + analysis_narrative.md

Agent 3: ReportAgent

tools: [file_search]

input: outputs dos agentes 1 e 2

saída: relatório final em formato PDF-ready

# Orchestrator: verifica qualidade a cada handoff, rejeita e re-tenta se score < 0.8

Redução de tempo

2 semanas → 2 dias

40%

Mais fontes por relatório

Pela escala de leitura do vector store

$18k

Custo mensal de API

Alto, mas vs $120k em salários

Controles Enterprise da OpenAI Utilizados

✓

Zero Data Retention — logs não usados para treinar modelos

✓

SSO + SCIM — integração com Okta, controle de acesso granular

✓

Audit Logs — quem acessou qual agente, quando, com quais dados

✓

Usage Policies — bloqueio de categorias de conteúdo específicas

Lição do Case 2

O maior risco foi confidencialidade: um agente de pesquisa com acesso a documentos de múltiplos clientes pode cruzar informações indevidamente. A solução foi Vector Stores por cliente (isolamento total), com o Orchestrator garantindo que cada run do agente acesse apenas o vector store do cliente correto. Implementar isso retroativamente levou 3 semanas — teria sido trivial se planejado desde o início.

Case 3 — Databricks AI Governance

🔶

Contexto: Varejo Nacional — Agente de Previsão de Demanda

MLflow + Unity Catalog + Mosaic AI para agente de supply chain

Uma rede varejista com 800 lojas usou o stack Databricks (MLflow, Unity Catalog, Mosaic AI) para construir um agente de previsão de demanda que automaticamente ajusta pedidos de compra. O agente combina modelos de ML próprios com LLMs para raciocínio sobre eventos externos (clima, feriados, campanhas).

Stack Técnico Databricks

MLflow

• Tracking de experimentos e versões de modelos
• Registro de hiperparâmetros e métricas
• Model Registry com stage (Staging/Production)
• Audit de quem promoveu qual modelo quando

Unity Catalog

• Catálogo unificado de dados e modelos
• Lineage automático: dado → feature → modelo → decisão
• Controle de acesso fino (column-level security)
• Auditoria de quem acessou qual dado

Mosaic AI Agent

• Agente com acesso ao modelo ML + LLM raciocínio
• Tool calling para APIs de fornecedores
• Human review antes de emitir pedidos acima de R$50k
• Feedback loop: buyer pode corrigir previsão

# Exemplo de lineage automático no Unity Catalog

Dado: vendas_historicas (catalog.bronze.sales)

→ Feature: demand_features (catalog.gold.features)

→ Modelo: demand_forecast_v3 (models:/demand_forecast/3)

→ Agente: supply_chain_agent (agents:/supply-chain/prod)

→ Decisão: pedido_compra_2025_03_15.json

# Se um modelo precisar ser explicado para regulador,

# o lineage rastreia até o dado original em milissegundos

Resultados

Acurácia de previsão 87% → 94%

Excesso de estoque -23%

Ruptura de estoque -31%

ROI em 12 meses R$8.4M

Governança em Ação

•Drift detection automático — alerta quando acurácia cai >5%

•Explainability via SHAP — comprador vê top features da previsão

•Rollback automático se modelo novo piora vs baseline

•Auditoria mensal obrigatória com reporte ao CFO

Lição do Case 3

O lineage automático foi o diferencial em uma auditoria interna. O auditor questionou uma decisão de pedido de compra atípica — em 30 segundos, a equipe apresentou o caminho completo: dado bruto → feature → modelo → agente → decisão, incluindo a versão exata do modelo e os dados que o alimentaram. Isso seria impossível sem Unity Catalog. Empresas que constroem sistemas de IA sem lineage estão criando passivos de auditoria que vão explodir eventualmente.

Case 4 — Fintech Brasileira de Crédito (LGPD + BACEN)

🇧🇷

Contexto: Fintech de Crédito Pessoal — Agente de Análise de Risco

Sistema agentic para concessão de crédito sob LGPD e Resolução BACEN 4.966

Uma fintech brasileira de crédito pessoal (série B, 2M clientes) precisava escalar análise de crédito mantendo compliance com a LGPD (proteção de dados pessoais), a Resolução BACEN 4.966/2021 (que exige explicabilidade de modelos de crédito) e as diretrizes da ANPD sobre tratamento automatizado de dados.

Desafios Regulatórios Específicos do Brasil

Art. 20 LGPD — Direito à Revisão Humana

O titular de dados tem direito à revisão humana de decisões tomadas exclusivamente por meios automatizados. O agente de crédito NUNCA pode ser a palavra final — sempre deve haver um humano disponível para recurso.

BACEN 4.966 — Explicabilidade de Modelos

Modelos de crédito devem ser explicáveis. Para LLMs usados em decisões de crédito: não basta o score, é preciso as razões. A fintech resolveu isso com SHAP values nos modelos de ML + sumário LLM das razões em linguagem natural para o cliente.

Retenção de Dados e Consentimento

Dados enviados para APIs de LLM externas precisam de base legal clara. A fintech optou por modelo de linguagem fine-tuned on-premise para dados sensíveis, usando apenas APIs externas para raciocínio com dados sintéticos/anonimizados.

Arquitetura de Compliance

# Pipeline de decisão de crédito com compliance BACEN/LGPD

1. Coleta: dados_cpf, score_bureau, histórico_pagamentos

2. Anonimização: remove PII antes de qualquer API externa

3. ML Model (on-premise): credit_score = predict(features_anonimizadas)

4. LLM on-premise (Llama 3.1): razoes = explain(credit_score, SHAP_values)

5. Decisão: if score >= threshold: APROVAR else: RECUSAR

6. Notificação: email com score + razoes em pt-BR + link_recurso_humano

7. Registro: audit_log imutável para BACEN (10 anos)

98.2%

Conformidade LGPD

0.3%

Taxa de recurso humano

Tempo de decisão

R$0

Multas BACEN/ANPD

Lição do Case 4

O maior insight foi que compliance e performance não são opostos — são complementares quando bem desenhados. A explicabilidade exigida pelo BACEN forçou a fintech a entender melhor seu próprio modelo, levando a melhorias que reduziram a inadimplência em 8%. O cumprimento regulatório se tornou vantagem competitiva: fintechs reguladas têm acesso a produtos que as não-reguladas não podem oferecer.

Análise Crítica — O Que os Cases Não Mostram

Cases de sucesso tendem a omitir fracassos, tentativas falhadas e custos ocultos. Veja o que raramente aparece nas apresentações:

O Problema do Promissory Note

Projetos de IA agentic frequentemente são vendidos internamente com projeções de ROI de 500–1000%. O ROI real leva 6–18 meses para se materializar. Nesse intervalo, projetos são cancelados por falta de resultados imediatos. Solução: defina métricas de processo (não só de resultado) desde o dia 1.

O Custo de Retreinamento e Manutenção

Modelos degradam com o tempo (data drift). O custo de manutenção de um agente em produção é tipicamente 30–50% do custo de desenvolvimento original por ano. Isso raramente aparece nos planos de negócio iniciais, gerando surpresas no orçamento.

A Resistência Humana Subestimada

Em todos os 4 cases acima, o maior bloqueio não foi técnico — foi humano. Analistas que rejeitavam recomendações do agente mesmo quando corretas, gestores que revertiam decisões automatizadas por "instinto", e times que sabotavam sutilmente a adoção. Change management consome 30–40% do esforço total e raramente é orçado adequadamente.

O Risco de Consolidação de Vendor

Azure, OpenAI e Databricks criam lock-in. Migrar de OpenAI para Anthropic ou vice-versa é tecnicamente simples (troca de API), mas migrar toda uma plataforma de agentes com Vector Stores, Fine-tuning e integrações é um projeto de 3–6 meses. Considere isso ao negociar contratos e ao arquitetar sistemas.

Padrões de Fracasso

✗Começar com caso de uso complexo e de alto risco
✗Ignorar o change management até o projeto falhar
✗Não medir baseline antes do agente entrar em produção
✗Prometer automação total sem HITL para casos edge
✗Subestimar custo de manutenção e monitoramento

Padrões de Sucesso

✓Começar com caso de uso de alto volume e baixo risco
✓Medir e compartilhar vitórias continuamente
✓Ter um "Agent Owner" humano responsável por cada agente
✓Tratar compliance como design constraint, não afterthought
✓Planejar para 3–5 versões de iteração antes de escalar

10 Lições Universais dos Cases

Baseline Antes de Tudo

Meça o processo atual (tempo, custo, erros) ANTES de implementar o agente. Sem baseline, você não consegue provar o ROI — nem ajustar o agente.

Compliance é Design, Não Retrofitting

Resolver LGPD, BACEN ou EU AI Act depois que o sistema está em produção custa 10x mais e pode exigir redesign completo da arquitetura.

HITL Não é Fraqueza

Human-in-the-Loop em pontos críticos não é sinal de que o agente não funciona — é arquitetura inteligente. Elimine HITL gradualmente com dados, não com pressa.

Isolamento de Tenant é Não-Negociável

Em sistemas multi-cliente, a separação de dados entre clientes deve ser garantida por arquitetura (vector stores separadas, RLS, schemas), não só por lógica de aplicação.

Explainability Vende

Usuários adotam agentes mais quando entendem as razões das decisões. Explainability não é só regulatório — é product design que aumenta trust e adoção.

Custo Real = API + Infra + Pessoas + Manutenção

O custo de API é a parte visível do iceberg. Infra de observabilidade, time de manutenção, retreinamento e incidentes respondem por 60–70% do TCO total.

Lineage Automático Salva Auditorias

A capacidade de responder "por que esse agente tomou essa decisão 6 meses atrás" não vem de boa memória — vem de lineage automático implementado desde o início.

Drift é Inevitável, Surpresa é Evitável

Todo modelo degrada. Configure alertas de performance desde o dia 1. Quando o alerta disparar, tenha um runbook pronto — não improvise em crise.

Small Wins, Big Trust

Quick wins em 2–4 semanas constroem o capital político para projetos mais ambiciosos. Tente fazer o agente de crédito automatizado no primeiro projeto e você perderá o apoio executivo.

O Humano é a Feature, Não o Bug

Os melhores sistemas agentic amplificam humanos, não os substituem. O analista de crédito que usa o agente para processar 10x mais contratos é mais valioso que o agente sem supervisão. Posicione assim internamente.

Resumo do Módulo

Cases Estudados

1.Azure AI Studio + Prompt Flow — análise de contratos bancários (8.3x throughput)
2.OpenAI Assistants API — pesquisa de mercado multi-agente (5x mais rápido)
3.Databricks MLflow + Unity Catalog — previsão de demanda com lineage (R$8.4M ROI)
4.Fintech brasileira — crédito com LGPD + BACEN (0 multas, 98.2% conformidade)

Padrões Críticos

•Compliance como design constraint desde o início
•Lineage automático para auditoria e explicabilidade
•HITL estratégico, não cosmético
•Change management = 30-40% do esforço real
•Quick wins para capital político antes de grandes projetos

← 6.7 Governança Próximo: 6.9 Certificações e Carreira →