Detecção de drift

O que é drift, como a rendfly detecta e o que fazer quando um alerta dispara.

Drift é quando um agente começa a se comportar mal de forma gradual. É diferente de uma única resposta ruim — drift significa que a baseline está mudando. O agente que pontuava 94/100 na semana passada agora está com média de 71/100, e a tendência é de queda. Nenhuma conversa isolada parece obviamente quebrada, mas algo mudou.

Três tipos de drift

Drift de tópico — o agente começa a responder perguntas fora do escopo.

Seu bot de e-commerce no Slack começa a ajudar usuários a escrever scripts Python porque alguém formulou a pergunta de um jeito que parecia uma dúvida de produto. Depois que ele acerta uma vez, formulações parecidas continuam chegando. O agente nunca recusa. Em poucos dias, ele responde perguntas gerais de programação em uma fração relevante das conversas, nenhuma delas compatível com as regras da system message.

Drift de tom — a voz do agente se afasta do que você definiu.

Um agente formal de atendimento para um SaaS B2B começa a ficar mais casual. “Claro!” em vez de “Certamente.” Contrações aparecem. Um ponto de exclamação ocasional. Nenhuma mensagem isolada assusta — o score agregado de tom cai devagar. Um mês depois, o agente não soa mais como a marca, e nenhum alerta disparou porque nenhuma conversa individual estava claramente errada.

Drift factual — o agente cita informações desatualizadas.

A system message foi escrita quando o envio levava 3–5 dias úteis. Uma mudança no depósito alterou para 5–7. Ninguém atualizou a system message. O agente continua citando o prazo antigo. Uma promoção sazonal termina, mas o agente ainda a menciona quando usuários perguntam sobre descontos. O conhecimento na system message agora está inconsistente com a realidade — e o agente está confiantemente errado.

Como a rendfly detecta

A detecção de drift é baseada na comparação de uma janela móvel. O algoritmo funciona assim:

Cada conversa recebe um score de 0 a 100 pelo judge (veja Como a rendfly julga conversas para os detalhes de pontuação).
A rendfly mantém uma baseline de 7 dias — uma média móvel dos scores por regra e agregados do projeto.
Uma janela de 24 horas de scores recentes é comparada contra essa baseline.
Quando a diferença entre a média da janela e a baseline excede o limite configurado — padrão de 2 desvios-padrão — um alerta de drift dispara.

O limite é configurável por projeto. Limites mais apertados capturam regressões menores mais cedo, mas geram mais ruído. Limites mais frouxos reduzem falsos positivos, mas deixam drift gradual passar por mais tempo. Para um agente de produção voltado a clientes com usuários ativos, o padrão de 2σ é um ponto de partida razoável.

Por que isso importa

As regressões de LLM mais comuns em produção são silenciosas e graduais. Alguns mecanismos concretos:

Atualizações do provider do modelo. OpenAI, Anthropic e Google atualizam periodicamente versões hospedadas de modelos. A maioria dessas mudanças é melhoria. Algumas introduzem mudanças comportamentais sutis — sensibilidade de recusa um pouco diferente, verbosidade alterada, tendências de tom modificadas. Sua suíte de eval passa porque as atualizações não quebram os casos de teste que você escreveu. O tráfego de produção revela a diferença.

Conhecimento desatualizado. Se sua system message contém afirmações factuais — preços, políticas, horários, regiões atendidas — essas afirmações podem ficar obsoletas sem ninguém tocar na system message. O agente continua cumprindo o que recebeu, que agora está errado.

Mudança de distribuição nas perguntas dos usuários. As perguntas que usuários fazem no terceiro mês muitas vezes são diferentes das perguntas do primeiro mês. Novos casos de uso surgem. Gírias e padrões de formulação evoluem. A system message não foi escrita para esses padrões, e a forma como o agente lida com eles não foi testada.

Sem detecção de drift, tudo isso fica invisível. O dashboard de infraestrutura continua verde. O usuário vê algo errado. Quando alguém reporta, a regressão já está rodando há dias.

O que fazer quando um alerta dispara

Quando um alerta de drift dispara, o playbook tem três passos:

Verifique quais conversas contribuíram para a queda de score. O alerta aponta para uma visão filtrada das conversas na janela sinalizada, ordenadas por score. Leia primeiro as de menor score. Elas mostram qual regra está falhando e o que o agente realmente disse.
Inspecione a system message. A regra que está falhando ainda está correta? Se a política de reembolso mudou, ou as regiões atendidas mudaram, ou o guia de tom foi atualizado na wiki do produto mas não na system message, a correção é atualizar a system message — não ajustar o judge.
Decida se deve apertar ou aceitar. Às vezes o drift é intencional: você suavizou as regras de tom de propósito e o score menor reflete essa decisão. Nesse caso, descarte o alerta e deixe a baseline se restabelecer. Outras vezes o drift é uma regressão real — uma atualização de modelo enfraqueceu uma recusa, uma afirmação desatualizada causou respostas erradas — e a correção é ajustar a system message ou escalar para o provider.

Relacionados

Como a rendfly julga conversas — como os scores de conversas individuais são produzidos
A system message é o contrato — por que a system message é a fonte da verdade para o comportamento correto