O que é a rendfly

A rendfly é monitoramento em produção para agentes de IA conversacional — Pingdom para agentes de IA.

A rendfly monitora agentes de IA conversacional em produção e avisa quando eles saem do roteiro. Pense em Pingdom, mas em vez de checar se um servidor responde, ele checa se seu agente continua cumprindo as regras que você definiu. Quando algo dá errado — preço errado, idioma errado, política errada — você fica sabendo em minutos, não quando um cliente manda um print.

O problema

Monitoramento de infraestrutura vê um agente saudável. A requisição voltou 200. A latência é 240ms. As consultas ao banco parecem normais.

O que ele não vê: seu agente de atendimento no WhatsApp está citando preços de frete do trimestre passado há duas semanas. Cada conversa recebe uma resposta HTTP tecnicamente bem-sucedida. O conteúdo dessas respostas está errado, e ninguém percebeu até um cliente publicar um print comparando o que o bot disse com o valor cobrado no checkout.

Isso é uma falha silenciosa — um dos modos mais comuns de regressão de IA em produção. O comportamento do modelo muda quando o provider lança uma nova versão sem alarde, quando a base de conhecimento fica desatualizada ou quando alguém edita a system message sem perceber que uma regra era crítica. Pesquisas sobre alucinação e drift comportamental em LLMs mostram que essas degradações são frequentes e graduais, o que as torna fáceis de perder sem monitoramento dedicado.

Nenhum alerta dispara. Nenhum dashboard fica vermelho. O Sentry continua verde. O agente simplesmente começa a errar.

O que a rendfly faz

O pipeline central tem três etapas:

Extrai regras da sua system message. Quando você conecta um projeto, a rendfly lê a system message do agente e extrai as restrições que ela contém — regras de recusa, requisitos de tom, condições de roteamento, afirmações factuais — e mostra tudo como uma lista editável no dashboard.
Julga cada conversa de produção. Cada conversa recebe uma pontuação contra as regras extraídas usando um LLM-as-judge. O judge usa um padrão sandwich que envolve suas regras e a conversa em blocos separados com tags, para que o conteúdo avaliado não manipule o veredito. O resultado aprovado/reprovado por regra vira um score agregado de 0 a 100 por conversa.
Alerta quando o comportamento desvia. A rendfly acompanha uma janela móvel de 24 horas de scores contra uma linha de base de 7 dias. Quando a diferença cruza um limite configurável (padrão: 2 desvios-padrão), um alerta dispara para email, Slack ou webhook.

Para quem é

Founders indie rodando um único agente — um bot de suporte no WhatsApp, um assistente no Telegram, um chat no site do produto — que querem saber imediatamente se algo saiu do eixo sem contratar um time dedicado de QA.

Agências gerenciando IA conversacional para vários clientes, onde um agente mal configurado prejudica a relação com o cliente e você precisa de visibilidade multi-tenant de todos os projetos em um lugar só.

Enterprises com SLAs de confiabilidade que precisam de trilhas de auditoria, roteamento customizado de alertas, consenso multi-judge para reduzir falsos positivos e, eventualmente, SSO e BYOK quando o time de segurança entrar na conversa.

O que a rendfly não é

A rendfly não é Sentry nem Datadog. Essas ferramentas cobrem infraestrutura — latência, taxa de erro, consultas ao banco — e fazem isso bem. Não há sobreposição. Você ainda precisa delas.

A rendfly também não é Braintrust, Helicone, LangSmith ou Promptfoo. Essas são ferramentas de avaliação em dev-time: você roda antes de publicar uma nova versão do prompt para capturar regressões em staging. Isso é valioso e complementar. A rendfly roda depois do deploy, na cauda viva das conversas reais, e observa comportamentos que nenhum eval de staging conseguiria antecipar.

Relacionados

A system message é o contrato — o conceito central por trás de como a rendfly decide o que é comportamento “correto”
Monitoramento em produção vs avaliação em dev-time — onde a rendfly se encaixa ao lado das ferramentas que você provavelmente já usa