Taxonomia de Falhas em Agentes LLM em Produção: 12 Modos de Falha Documentados em 18 Meses
Catálogo técnico de 12 modos de falha reais observados em agentes LLM de produção, com causa raiz, sintoma observável e estratégia de mitigação.
A discussão pública sobre agentes de IA foca quase sempre em capacidades. A discussão operacional, dentro de times que rodam agentes em produção, foca quase sempre em falhas.
Este texto é uma tentativa de organizar o vocabulário compartilhado de modos de falha de agentes LLM. A taxonomia abaixo foi construída a partir de 18 meses observando sistemas reais em produção em clientes nossos, classificando cada incidente por sintoma, causa raiz e família.
A proposta não é exaustiva. É um ponto de partida para a conversa que todo time operando agentes em produção precisa ter.
Família 1 — Falhas de Geração
Problemas que nascem dentro do modelo e aparecem como texto errado.
F1. Alucinação Factual
Modelo afirma fato que não existe. Nome de produto que não está no catálogo, preço inventado, política que não é da empresa. Causa raiz: modelo tenta completar padrão plausível sem verificar. Mitigação: grounding via tool use obrigatório para fato verificável; recusa explícita (“não tenho essa informação”) no prompt system.
F2. Drift de Persona
Modelo começa seguindo persona definida e, ao longo da conversa, volta para persona genérica de assistente. Causa raiz: janela de contexto longa dilui instrução inicial. Mitigação: reforço periódico de persona em mensagens de sistema intermediárias; checkpoint de persona a cada N turnos.
F3. Vazamento de Prompt
Usuário consegue extrair o prompt system ou outras instruções internas. Causa raiz: falta de separação rígida entre instrução e dado de usuário. Mitigação: guardrail explícito contra transcrição de instruções; validação de saída com classificador dedicado.
F4. Tom Inapropriado ao Canal
Resposta tecnicamente correta mas fora do tom da empresa — formal demais em canal casual, casual demais em canal técnico. Causa raiz: prompt system genérico sem calibração por canal. Mitigação: prompts distintos por canal (WhatsApp, e-mail, web chat) com exemplos few-shot específicos.
Família 2 — Falhas de Ferramentas
Problemas na interface entre o agente e o mundo real.
F5. Chamada de Ferramenta Errada
Agente escolhe a ferramenta errada para a tarefa. Exemplo clássico: chamar agendar_reuniao quando o usuário queria apenas consultar horários disponíveis. Causa raiz: descrição de ferramenta ambígua ou sobreposta. Mitigação: descrições cirúrgicas com exemplos de quando usar e quando não usar; testes unitários de seleção de ferramenta.
F6. Parâmetro Mal Formado
Agente chama a ferramenta certa com parâmetro errado. Data em formato inesperado, ID em string em vez de inteiro, valor em centavos quando a função espera reais. Causa raiz: schema de ferramenta frouxo. Mitigação: schema estrito com validação no broker; retorno de erro estruturado que o agente consegue ler e corrigir.
F7. Loop de Ferramenta
Agente chama a mesma ferramenta repetidamente sem progresso. Tenta consultar estoque 12 vezes seguidas ao receber resposta inesperada. Causa raiz: ausência de detecção de loop e ausência de exit strategy no prompt. Mitigação: contador de chamadas por tipo de ferramenta na janela de raciocínio; escalada automática ao humano após N tentativas.
F8. Alucinação de Ferramenta
Agente “chama” ferramenta que não existe. Causa raiz: modelo presume que a ferramenta deveria existir com base em padrões de treinamento. Mitigação: validação estrita no broker — ferramenta não listada é rejeitada com mensagem explícita.
Família 3 — Falhas de Memória e Contexto
Problemas que aparecem quando o agente precisa lembrar de algo.
F9. Amnésia Dentro da Sessão
Agente esquece informação fornecida 5 mensagens antes. Cliente disse CPF no início, agente pede de novo no fim. Causa raiz: truncamento silencioso de contexto sem sumarização. Mitigação: sumarização automática ao atingir 70% da janela; persistência de entidades críticas em variáveis estruturadas fora do texto.
F10. Memória Cruzada Entre Usuários
Informação de um usuário aparece na resposta para outro. Causa raiz: cache mal isolado por identificador de sessão. Mitigação: chave de cache sempre compondo tenant + user + session; auditoria periódica de entropia de respostas.
Família 4 — Falhas de Comportamento
Problemas que não são erros individuais mas padrões ao longo do tempo.
F11. Concessão Acima do Escopo
Agente oferece desconto além do autorizado, promessa de prazo que não pode cumprir, compromisso que não está contratado. Causa raiz: guardrail fraco ou genérico. Mitigação: guardrail em dois níveis — prompt instruindo limites E validador de saída que rejeita promessas específicas detectadas por padrão.
F12. Escalada Tardia ou Ausente
Agente insiste em resolver sozinho caso que deveria ter sido escalado ao humano. Cliente em situação crítica, dúvida regulatória, reclamação grave. Causa raiz: heurística de escalada implícita no prompt, sem regras duras. Mitigação: lista explícita de gatilhos que disparam escalada imediata; detecção de sentimento como reforço.
Como Usar Esta Taxonomia
Quatro aplicações práticas que a gente usa internamente:
Revisão de incidente. Toda falha em produção é classificada em um dos 12 modos. Incidentes sem classificação viram candidatos a nova entrada na taxonomia. Em 18 meses, adicionamos 4 modos além dos inicialmente identificados.
Teste de regressão. Para cada modo de falha, existe um conjunto de casos de teste sintéticos que tentam disparar aquela falha. Mudança de prompt ou de modelo roda a bateria inteira antes de ir a produção.
Onboarding de engenheiro novo. Engenheiro novo no time passa por trilha onde precisa identificar cada modo em transcrições reais. Acelera a construção de repertório em 30-45 dias.
Conversa com cliente sobre SLA. Quando cliente pergunta “mas quais são os riscos?”, a gente apresenta a taxonomia e discute quais modos são mitigáveis no escopo contratado e quais exigem escopo adicional. Cliente toma decisão informada.
O Que Esta Taxonomia Não Resolve
Três classes de problema que deliberadamente não entraram nesta versão:
Falhas de infraestrutura — timeout, falta de capacidade, degradação de provedor. São relevantes mas já têm vocabulário próprio em SRE.
Falhas de integração — bug em API externa, mudança de schema não comunicada. Também já têm tratamento padrão em engenharia de software.
Falhas estratégicas — o agente está funcionando tecnicamente mas não deveria existir para aquele caso de uso. Essa é discussão de produto, não de falha técnica.
Conclusão
Taxonomia de falhas é ferramenta de maturidade. Time que não consegue nomear os próprios erros não consegue preveni-los sistematicamente. Time que classifica cada incidente em vocabulário compartilhado acelera aprendizado.
Se você opera agentes em produção e quer discutir os modos de falha específicos da sua operação, agende uma análise gratuita.
Sakaguchi IA — Inteligência Artificial para Empresas Brasileiras