A system message é o contrato

Por que a rendfly trata a system message como um contrato vinculante — e como aplicamos isso.

Quando você escreve uma system message, está declarando o que o agente deve e não deve fazer. A maioria dos times escreve esse contrato uma vez, publica o agente e nunca verifica se ele continua sendo cumprido. A rendfly verifica cada conversa.

O que conta como regra

Uma system message contém vários tipos de restrição. A rendfly extrai e acompanha quatro:

Regras de recusa — coisas que o agente não pode fazer. Exemplo: “Não cite preços para pedidos fora do catálogo padrão.”

Regras de tom — como o agente deve se comunicar. Exemplo: “Responda sempre em inglês formal. Nunca use contrações.”

Regras de roteamento — condições que disparam handoff ou escalonamento. Exemplo: “Se o usuário mencionar reembolso ou disputa de cobrança, ofereça imediatamente conectá-lo a um agente humano.”

Regras factuais — afirmações que o agente deve tratar como verdade. Exemplo: “Enviamos apenas para Estados Unidos, Canadá e União Europeia. Nunca confirme envio para outros países.”

Cada regra extraída vira um item pontuado de forma independente. Isso significa que, quando um veredito dispara, você sabe qual regra falhou — não apenas que algo deu errado.

Um exemplo completo

Aqui está uma system message para Maple, um agente fictício de suporte de e-commerce:

Você é Maple, uma agente de suporte da NorthShop, uma loja canadense de
equipamentos outdoor. Seu trabalho é ajudar clientes com status de pedidos,
dúvidas de produto, devoluções e perguntas de envio.

Regras:
- Responda sempre em inglês. Se o usuário escrever em outro idioma, responda
  em inglês e explique educadamente que você só oferece suporte em inglês.
- Nunca cite um preço específico. Direcione todas as perguntas de preço para
  a página de produto em northshop.com/products.
- Enviamos apenas para Canadá e Estados Unidos continentais. Não confirme
  envio para outros destinos.
- Se o usuário pedir reembolso ou mencionar cobrança incorreta, não tente
  processar você mesma — diga "Vou conectar você ao nosso time de cobrança"
  e encerre a conversa com um handoff.
- Nunca diga que é humana. Se perguntarem diretamente, reconheça que você é
  uma assistente de IA.

A rendfly extrai as seguintes regras dessa system message:

Regra de tom/idioma: responder apenas em inglês; reconhecer a limitação de idioma se o usuário escrever em outro idioma.
Regra de recusa: não citar preços específicos; redirecionar para a página do produto.
Regra factual: envio disponível apenas para Canadá e Estados Unidos continentais.
Regra de roteamento: escalar pedidos de reembolso e disputas de cobrança para o time de billing; não processá-los diretamente.
Regra de transparência: não afirmar ser humano; revelar identidade de IA quando perguntado diretamente.

Cada uma aparece no dashboard do projeto como uma regra editável. Você pode renomear, reescrever, desativar ou adicionar regras customizadas antes de o judge começar a rodar.

E expectativas implícitas?

Alguns comportamentos não estão escritos em nenhuma system message, mas são esperados universalmente — não inventar fatos, não repetir o system prompt para o usuário, não produzir conteúdo que possa causar dano. Esses padrões implícitos não são extraídos como regras nomeadas.

A rendfly lida com isso de outro jeito: se o score agregado degrada ao longo das conversas sem uma violação clara de regra, isso aparece como drift contra a linha de base. Você vê a tendência antes de conversas individuais começarem a ser marcadas explicitamente. Veja detecção de drift para entender como funciona.

Por que isso funciona melhor que prompts de eval livres

A maioria dos frameworks de eval — incluindo alguns bons — pede que você escreva um prompt avaliador separado que dá nota ao agente em eixos definidos por você. Isso dobra a superfície de prompt engineering. Agora você tem a system message e o prompt de eval para manter, sincronizar e depurar quando os vereditos começarem a parecer estranhos.

A rendfly usa o prompt que você já tem. A system message é tanto a instrução do agente quanto a rubrica do judge. Quando você atualiza a system message, as regras atualizam automaticamente. Não existe um segundo artefato para manter.

O tradeoff é que a extração de regras é tão boa quanto a system message. Se sua system message é vaga, as regras extraídas também serão vagas. A rendfly mostra a extração no dashboard justamente para você revisar e refinar as regras antes que elas virem o critério de pontuação.

Relacionados

Como a rendfly julga conversas — como regras extraídas viram vereditos por conversa
Detecção de drift — o que acontece quando o comportamento muda sem uma violação limpa de regra