O que é moderação de conteúdo?

Moderação de conteúdo é a forma como uma plataforma decide, em escala, quais mensagens, imagens e arquivos enviados por usuários chegam a outros usuários — e quais são bloqueados, sinalizados ou retidos para análise humana. A tensão é sempre a mesma: se for permissiva demais, spam, assédio e conteúdo ilegal afastam usuários reais; se for rígida demais, publicações legítimas ficam soterradas por falsos positivos. Toda plataforma com conteúdo gerado por usuários está em algum ponto desse espectro, seja moderando de propósito ou por omissão.

A Discuse cuida da parte de detecção dessa decisão. Uma chamada de API retorna uma análise por categoria — spam, toxicidade, NSFW, malware e idioma — cada uma com uma pontuação de confiança, para que o seu próprio código defina os limites e as ações. Você mantém o controle da política; a API faz a classificação.

O que você está realmente decidindo

Um sistema de moderação responde a três perguntas para cada conteúdo:

Isso é prejudicial, e de que forma? Não é um sim/não — é uma pontuação por categoria, porque uma mesma mensagem pode ser um spam leve e claramente tóxica ao mesmo tempo.
Qual é o nível de confiança do modelo? Uma pontuação de toxicidade de 0,98 e uma de 0,55 levam a decisões muito diferentes. A Discuse retorna a confiança para que você possa agir automaticamente nos casos claros e encaminhar a zona ambígua para uma pessoa.
O que você faz a respeito? Bloqueia, sinaliza de forma discreta, coloca na fila de análise ou permite. Isso é política, e continua nas suas mãos.

As categorias que a Discuse classifica:

Categoria	O que detecta	Exemplo
Spam	Promoção não solicitada, golpes, redes de links	"🎁 Você ganhou! Resgate em bit.ly/…"
Toxicidade	Assédio, discurso de ódio, ameaças	Ofensas direcionadas, doxxing, ameaças de violência
NSFW	Imagens adultas ou gráficas	Nudez, pornografia, gore
Malware	Arquivos e links maliciosos	Anexos infectados, URLs de phishing
Idioma	O idioma em que uma mensagem foi escrita	Roteamento, regras de localidade, verificações de idioma esperado

Pré-moderação vs. pós-moderação

A primeira escolha real é quando fazer a verificação.

Pré-moderação — verifica antes que o conteúdo fique visível. Nada prejudicial chega a ser exposto, mas cada publicação aguarda uma ida e volta da API, então funciona bem em áreas onde um pequeno atraso é aceitável (uma verificação de texto é rápida; a análise de uma imagem ou arquivo demora mais porque a URL precisa ser buscada e analisada). Use nos casos de maior risco: primeiras publicações de contas recém-criadas, DMs para desconhecidos, qualquer coisa juridicamente sensível.

Pós-moderação — publica imediatamente, verifica em segundo plano e remove depois. É instantâneo para o usuário, mas conteúdo prejudicial fica no ar por um breve período. Use onde a velocidade importa e alguns segundos de exposição representam baixo risco (usuários estabelecidos, canais de baixo impacto).

A maioria das plataformas usa os dois modelos e escolhe por área e por usuário: a mensagem de um membro confiável é publicada na hora, enquanto o primeiro link de uma conta nova fica retido até ser aprovado.

Automática, humana ou ambas

A revisão puramente humana não escala e expõe pessoas ao pior tipo de conteúdo até o esgotamento. A automação pura é rápida e consistente, mas erra nos casos realmente ambíguos — as mesmas palavras podem ser uma piada em um contexto e uma ameaça em outro.

A abordagem mais robusta é por faixas de confiança: deixe o modelo decidir automaticamente os casos claros e envie apenas a faixa intermediária incerta para pessoas.

Alta confiança (por exemplo, acima de 0,95): permitir ou remover automaticamente.
Média confiança (aproximadamente 0,5–0,95): publicar ou reter, mas colocar na fila para análise humana.
Baixa confiança: permitir e fazer amostragem para monitoramento.

Isso concentra a atenção humana na pequena fatia de conteúdo em que o julgamento realmente agrega valor, em vez de desperdiçá-la na maioria dos casos que o modelo já trata corretamente. Configuração de limites explica como escolher essas faixas para a sua plataforma.

Começando com a Discuse

A Discuse expõe tudo isso por meio de um único endpoint. Envie texto, URLs de imagens ou arquivos; receba categorias, pontuações e uma única flag has_violations:

curl -X POST https://api.discuse.com/api/v2/check \
  -H "Content-Type: application/json" \
  -H "X-API-Key: YOUR_API_KEY" \
  -d '{
    "content": {
      "text": "Hello, this is a test message!"
    }
  }'

A partir daí, você aplica seus próprios limites e ações. O Guia de início rápido coloca uma integração funcional em operação em poucos minutos, e o Guia de moderação de conteúdo com AI aborda em profundidade a arquitetura por faixas de confiança.

O que é moderação de conteúdo?

O que você está realmente decidindo

Pré-moderação vs. pós-moderação

Automática, humana ou ambas

Começando com a Discuse

Artigos relacionados

Guia de início rápido

Autenticação e chaves de API

Códigos de erro e resposta