¿Qué es la moderación de contenido?
La moderación de contenido es la forma en que una plataforma decide, a gran escala, qué mensajes, imágenes y archivos enviados por los usuarios llegan a otros usuarios, y cuáles se bloquean, se marcan o quedan pendientes para que una persona los revise. La tensión siempre es la misma: si eres demasiado permisivo, el spam, el acoso y el contenido ilegal ahuyentan a los usuarios reales; si eres demasiado estricto, entierras publicaciones legítimas bajo falsos positivos. Toda plataforma con contenido generado por usuarios se sitúa en algún punto de ese espectro, ya sea que modere de forma intencional o por accidente.
Discuse se encarga de la parte de detección de esa decisión. Una sola llamada a la API devuelve un desglose por categoría —spam, toxicidad, NSFW, malware e idioma—, cada una con una puntuación de confianza, para que tu propio código controle los umbrales y las acciones. Tú mantienes el control de la política; la API se ocupa de la clasificación.
Lo que realmente estás decidiendo
Un sistema de moderación responde tres preguntas para cada pieza de contenido:
- ¿Esto es dañino, y de qué manera? No es un sí/no: es una puntuación por categoría, porque un mismo mensaje puede ser spam leve y claramente tóxico al mismo tiempo.
- ¿Qué tan seguro está el modelo? Una puntuación de toxicidad de 0.98 y una de 0.55 implican decisiones muy diferentes. Discuse devuelve la confianza para que puedas actuar automáticamente en los casos claros y enviar los casos ambiguos a una persona.
- ¿Qué haces tú al respecto? Bloquear, marcar de forma invisible, enviar a revisión o permitir. Eso es política, y sigue estando en tus manos.
Las categorías que clasifica Discuse:
| Categoría | Qué detecta | Ejemplo |
|---|---|---|
| Spam | Promoción no solicitada, estafas, granjas de enlaces | "🎁 ¡Has ganado! Reclama en bit.ly/…" |
| Toxicidad | Acoso, discurso de odio, amenazas | Insultos dirigidos, doxxing, amenazas de violencia |
| NSFW | Imágenes para adultos o gráficas | Desnudez, pornografía, gore |
| Malware | Archivos y enlaces maliciosos | Adjuntos infectados, URLs de phishing |
| Idioma | El idioma en el que está escrito un mensaje | Enrutamiento, reglas de configuración regional, comprobaciones de idioma esperado |
Premoderación frente a postmoderación
La primera decisión real es cuándo haces la comprobación.
Premoderación — comprobar antes de que el contenido sea visible. Nunca se expone nada dañino, pero cada publicación espera una ida y vuelta a la API, así que encaja en superficies donde un pequeño retraso es aceptable (una comprobación de texto es rápida; analizar una imagen o un archivo tarda más porque hay que obtener y analizar la URL). Úsala para los casos de alto riesgo: primeras publicaciones de cuentas recién creadas, mensajes directos a desconocidos, cualquier cosa legalmente sensible.
Postmoderación — publicar de inmediato, comprobar en segundo plano y eliminar después. Es instantáneo para el usuario, pero el contenido dañino queda visible brevemente. Úsala donde la velocidad importa y unos segundos de exposición suponen poco riesgo (usuarios establecidos, canales de baja criticidad).
La mayoría de las plataformas usan ambas y eligen según la superficie y el usuario: el mensaje de un miembro de confianza se publica al instante, mientras que el primer enlace de una cuenta nueva queda retenido hasta que se aprueba.
Automatizada, humana o ambas
La revisión puramente humana no escala y expone a las personas al peor contenido hasta agotarlas. La automatización pura es rápida y coherente, pero se equivoca en los casos realmente ambiguos: las mismas palabras pueden ser una broma en un contexto y una amenaza en otro.
El enfoque que funciona a largo plazo es el de bandas de confianza: deja que el modelo decida automáticamente los casos claros y envía solo la zona intermedia incierta a personas.
- Alta confianza (por ejemplo, por encima de 0.95): permitir o eliminar automáticamente.
- Confianza media (aproximadamente 0.5–0.95): publicar o retener, pero enviar a la cola de revisión humana.
- Baja confianza: permitir y tomar muestras para supervisión.
Así mantienes la atención humana en la pequeña parte del contenido donde el criterio realmente aporta valor, en lugar de dedicarla a la mayoría que el modelo ya maneja correctamente. Configurar umbrales explica cómo elegir esas bandas para tu plataforma.
Primeros pasos con Discuse
Discuse expone todo esto mediante un único endpoint. Envía texto, URLs de imágenes o archivos; recibe categorías, puntuaciones y una única bandera has_violations:
curl -X POST https://api.discuse.com/api/v2/check \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_API_KEY" \
-d '{
"content": {
"text": "Hello, this is a test message!"
}
}'
A partir de ahí, aplicas tus propios umbrales y acciones. La guía de inicio rápido te permite poner en marcha una integración funcional en pocos minutos, y la guía de moderación de contenido con AI cubre en profundidad la arquitectura basada en bandas de confianza.