O que é moderação de conteúdo?
Moderação de conteúdo é a forma como uma plataforma decide, em escala, quais mensagens, imagens e arquivos enviados por usuários chegam a outros usuários — e quais são bloqueados, sinalizados ou retidos para análise humana. A tensão é sempre a mesma: se for permissiva demais, spam, assédio e conteúdo ilegal afastam usuários reais; se for rígida demais, publicações legítimas ficam soterradas por falsos positivos. Toda plataforma com conteúdo gerado por usuários está em algum ponto desse espectro, seja moderando de propósito ou por omissão.
A Discuse cuida da parte de detecção dessa decisão. Uma chamada de API retorna uma análise por categoria — spam, toxicidade, NSFW, malware e idioma — cada uma com uma pontuação de confiança, para que o seu próprio código defina os limites e as ações. Você mantém o controle da política; a API faz a classificação.
O que você está realmente decidindo
Um sistema de moderação responde a três perguntas para cada conteúdo:
- Isso é prejudicial, e de que forma? Não é um sim/não — é uma pontuação por categoria, porque uma mesma mensagem pode ser um spam leve e claramente tóxica ao mesmo tempo.
- Qual é o nível de confiança do modelo? Uma pontuação de toxicidade de 0,98 e uma de 0,55 levam a decisões muito diferentes. A Discuse retorna a confiança para que você possa agir automaticamente nos casos claros e encaminhar a zona ambígua para uma pessoa.
- O que você faz a respeito? Bloqueia, sinaliza de forma discreta, coloca na fila de análise ou permite. Isso é política, e continua nas suas mãos.
As categorias que a Discuse classifica:
| Categoria | O que detecta | Exemplo |
|---|---|---|
| Spam | Promoção não solicitada, golpes, redes de links | "🎁 Você ganhou! Resgate em bit.ly/…" |
| Toxicidade | Assédio, discurso de ódio, ameaças | Ofensas direcionadas, doxxing, ameaças de violência |
| NSFW | Imagens adultas ou gráficas | Nudez, pornografia, gore |
| Malware | Arquivos e links maliciosos | Anexos infectados, URLs de phishing |
| Idioma | O idioma em que uma mensagem foi escrita | Roteamento, regras de localidade, verificações de idioma esperado |
Pré-moderação vs. pós-moderação
A primeira escolha real é quando fazer a verificação.
Pré-moderação — verifica antes que o conteúdo fique visível. Nada prejudicial chega a ser exposto, mas cada publicação aguarda uma ida e volta da API, então funciona bem em áreas onde um pequeno atraso é aceitável (uma verificação de texto é rápida; a análise de uma imagem ou arquivo demora mais porque a URL precisa ser buscada e analisada). Use nos casos de maior risco: primeiras publicações de contas recém-criadas, DMs para desconhecidos, qualquer coisa juridicamente sensível.
Pós-moderação — publica imediatamente, verifica em segundo plano e remove depois. É instantâneo para o usuário, mas conteúdo prejudicial fica no ar por um breve período. Use onde a velocidade importa e alguns segundos de exposição representam baixo risco (usuários estabelecidos, canais de baixo impacto).
A maioria das plataformas usa os dois modelos e escolhe por área e por usuário: a mensagem de um membro confiável é publicada na hora, enquanto o primeiro link de uma conta nova fica retido até ser aprovado.
Automática, humana ou ambas
A revisão puramente humana não escala e expõe pessoas ao pior tipo de conteúdo até o esgotamento. A automação pura é rápida e consistente, mas erra nos casos realmente ambíguos — as mesmas palavras podem ser uma piada em um contexto e uma ameaça em outro.
A abordagem mais robusta é por faixas de confiança: deixe o modelo decidir automaticamente os casos claros e envie apenas a faixa intermediária incerta para pessoas.
- Alta confiança (por exemplo, acima de 0,95): permitir ou remover automaticamente.
- Média confiança (aproximadamente 0,5–0,95): publicar ou reter, mas colocar na fila para análise humana.
- Baixa confiança: permitir e fazer amostragem para monitoramento.
Isso concentra a atenção humana na pequena fatia de conteúdo em que o julgamento realmente agrega valor, em vez de desperdiçá-la na maioria dos casos que o modelo já trata corretamente. Configuração de limites explica como escolher essas faixas para a sua plataforma.
Começando com a Discuse
A Discuse expõe tudo isso por meio de um único endpoint. Envie texto, URLs de imagens ou arquivos; receba categorias, pontuações e uma única flag has_violations:
curl -X POST https://api.discuse.com/api/v2/check \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_API_KEY" \
-d '{
"content": {
"text": "Hello, this is a test message!"
}
}'
A partir daí, você aplica seus próprios limites e ações. O Guia de início rápido coloca uma integração funcional em operação em poucos minutos, e o Guia de moderação de conteúdo com AI aborda em profundidade a arquitetura por faixas de confiança.