A system message é o contrato
Por que a rendfly trata a system message como um contrato vinculante — e como aplicamos isso.
Quando você escreve uma system message, está declarando o que o agente deve e não deve fazer. A maioria dos times escreve esse contrato uma vez, publica o agente e nunca verifica se ele continua sendo cumprido. A rendfly verifica cada conversa.
O que conta como regra
Uma system message contém vários tipos de restrição. A rendfly extrai e acompanha quatro:
Regras de recusa — coisas que o agente não pode fazer. Exemplo: “Não cite preços para pedidos fora do catálogo padrão.”
Regras de tom — como o agente deve se comunicar. Exemplo: “Responda sempre em inglês formal. Nunca use contrações.”
Regras de roteamento — condições que disparam handoff ou escalonamento. Exemplo: “Se o usuário mencionar reembolso ou disputa de cobrança, ofereça imediatamente conectá-lo a um agente humano.”
Regras factuais — afirmações que o agente deve tratar como verdade. Exemplo: “Enviamos apenas para Estados Unidos, Canadá e União Europeia. Nunca confirme envio para outros países.”
Cada regra extraída vira um item pontuado de forma independente. Isso significa que, quando um veredito dispara, você sabe qual regra falhou — não apenas que algo deu errado.
Um exemplo completo
Aqui está uma system message para Maple, um agente fictício de suporte de e-commerce:
Você é Maple, uma agente de suporte da NorthShop, uma loja canadense de
equipamentos outdoor. Seu trabalho é ajudar clientes com status de pedidos,
dúvidas de produto, devoluções e perguntas de envio.
Regras:
- Responda sempre em inglês. Se o usuário escrever em outro idioma, responda
em inglês e explique educadamente que você só oferece suporte em inglês.
- Nunca cite um preço específico. Direcione todas as perguntas de preço para
a página de produto em northshop.com/products.
- Enviamos apenas para Canadá e Estados Unidos continentais. Não confirme
envio para outros destinos.
- Se o usuário pedir reembolso ou mencionar cobrança incorreta, não tente
processar você mesma — diga "Vou conectar você ao nosso time de cobrança"
e encerre a conversa com um handoff.
- Nunca diga que é humana. Se perguntarem diretamente, reconheça que você é
uma assistente de IA. A rendfly extrai as seguintes regras dessa system message:
- Regra de tom/idioma: responder apenas em inglês; reconhecer a limitação de idioma se o usuário escrever em outro idioma.
- Regra de recusa: não citar preços específicos; redirecionar para a página do produto.
- Regra factual: envio disponível apenas para Canadá e Estados Unidos continentais.
- Regra de roteamento: escalar pedidos de reembolso e disputas de cobrança para o time de billing; não processá-los diretamente.
- Regra de transparência: não afirmar ser humano; revelar identidade de IA quando perguntado diretamente.
Cada uma aparece no dashboard do projeto como uma regra editável. Você pode renomear, reescrever, desativar ou adicionar regras customizadas antes de o judge começar a rodar.
E expectativas implícitas?
Alguns comportamentos não estão escritos em nenhuma system message, mas são esperados universalmente — não inventar fatos, não repetir o system prompt para o usuário, não produzir conteúdo que possa causar dano. Esses padrões implícitos não são extraídos como regras nomeadas.
A rendfly lida com isso de outro jeito: se o score agregado degrada ao longo das conversas sem uma violação clara de regra, isso aparece como drift contra a linha de base. Você vê a tendência antes de conversas individuais começarem a ser marcadas explicitamente. Veja detecção de drift para entender como funciona.
Por que isso funciona melhor que prompts de eval livres
A maioria dos frameworks de eval — incluindo alguns bons — pede que você escreva um prompt avaliador separado que dá nota ao agente em eixos definidos por você. Isso dobra a superfície de prompt engineering. Agora você tem a system message e o prompt de eval para manter, sincronizar e depurar quando os vereditos começarem a parecer estranhos.
A rendfly usa o prompt que você já tem. A system message é tanto a instrução do agente quanto a rubrica do judge. Quando você atualiza a system message, as regras atualizam automaticamente. Não existe um segundo artefato para manter.
O tradeoff é que a extração de regras é tão boa quanto a system message. Se sua system message é vaga, as regras extraídas também serão vagas. A rendfly mostra a extração no dashboard justamente para você revisar e refinar as regras antes que elas virem o critério de pontuação.
Relacionados
- Como a rendfly julga conversas — como regras extraídas viram vereditos por conversa
- Detecção de drift — o que acontece quando o comportamento muda sem uma violação limpa de regra