Qu’est-ce que la modération de contenu ?

La modération de contenu est la manière dont une plateforme décide, à grande échelle, quels messages, images et fichiers soumis par les utilisateurs parviennent aux autres utilisateurs — et lesquels sont bloqués, signalés ou mis en attente pour une revue humaine. La tension est toujours la même : trop de laxisme, et le spam, le harcèlement et les contenus illégaux font fuir les vrais utilisateurs ; trop de sévérité, et vous noyez les publications légitimes sous les faux positifs. Toute plateforme reposant sur du contenu généré par les utilisateurs se situe quelque part sur ce spectre, qu’elle modère volontairement ou par défaut.

Discuse prend en charge la partie détection de cette décision. Un seul appel API renvoie une analyse par catégorie — spam, toxicité, NSFW, malware et langue — chacune accompagnée d’un score de confiance, afin que votre propre code reste maître des seuils et des actions. Vous gardez le contrôle de la politique ; l’API se charge de la classification.

Ce que vous décidez concrètement

Un système de modération répond à trois questions pour chaque contenu :

Ce contenu est-il nuisible, et de quelle manière ? Ce n’est pas une réponse oui/non — c’est un score par catégorie, car un même message peut être à la fois légèrement spam et clairement toxique.
Quel est le niveau de confiance du modèle ? Un score de toxicité de 0,98 et un score de 0,55 appellent des décisions très différentes. Discuse renvoie le niveau de confiance afin que vous puissiez automatiser les cas évidents et transmettre les situations ambiguës à un humain.
Que faites-vous ensuite ? Bloquer, signaler discrètement, mettre en file de revue ou autoriser. C’est votre politique, et elle reste entre vos mains.

Les catégories classifiées par Discuse :

Catégorie	Ce qu’elle détecte	Exemple
Spam	Promotion non sollicitée, arnaques, fermes de liens	"🎁 Vous avez gagné ! Réclamez votre lot sur bit.ly/…"
Toxicité	Harcèlement, discours haineux, menaces	Insultes ciblées, doxxing, menaces de violence
NSFW	Images à caractère adulte ou graphiques	Nudité, pornographie, gore
Malware	Fichiers et liens malveillants	Pièces jointes infectées, URL de phishing
Langue	La langue dans laquelle un message est rédigé	Routage, règles de locale, vérifications de langue attendue

Pré-modération ou post-modération

Le premier vrai choix consiste à décider quand effectuer la vérification.

Pré-modération — vérifier avant que le contenu ne soit visible. Aucun contenu nuisible n’est exposé, mais chaque publication attend un aller-retour API ; cette approche convient donc aux espaces où un court délai est acceptable (la vérification d’un texte est rapide ; l’analyse d’une image ou d’un fichier prend plus de temps, car l’URL doit être récupérée et analysée). Utilisez-la pour les cas à haut risque : premières publications de comptes tout nouveaux, messages privés à des inconnus, tout contenu juridiquement sensible.

Post-modération — publier immédiatement, vérifier en arrière-plan, puis retirer après coup si nécessaire. C’est instantané pour l’utilisateur, mais le contenu nuisible reste brièvement en ligne. Utilisez-la lorsque la rapidité compte et qu’une exposition de quelques secondes présente peu de risques (utilisateurs établis, canaux à faible enjeu).

La plupart des plateformes combinent les deux et choisissent selon l’espace et l’utilisateur : le message d’un membre de confiance est publié instantanément, tandis que le premier lien d’un nouveau compte est retenu jusqu’à validation.

Automatisé, humain, ou les deux

La revue exclusivement humaine ne passe pas à l’échelle et expose les équipes aux pires contenus jusqu’à l’épuisement. L’automatisation pure est rapide et cohérente, mais se trompe sur les cas réellement ambigus — les mêmes mots peuvent être une plaisanterie dans un contexte et une menace dans un autre.

L’approche la plus robuste consiste à fonctionner par bandes de confiance : laisser le modèle décider automatiquement les cas évidents et n’envoyer aux humains que la zone intermédiaire incertaine.

Confiance élevée (par exemple au-dessus de 0,95) : autoriser ou supprimer automatiquement.
Confiance moyenne (environ 0,5–0,95) : publier ou retenir, mais mettre en file pour une revue humaine.
Confiance faible : autoriser, et échantillonner à des fins de suivi.

Ainsi, l’attention humaine se concentre sur la petite part de contenus où le jugement apporte réellement de la valeur, plutôt que sur la majorité que le modèle traite déjà correctement. Configurer les seuils explique comment choisir ces bandes pour votre plateforme.

Bien démarrer avec Discuse

Discuse expose tout cela via un seul endpoint. Envoyez du texte, des URL d’images ou des fichiers ; récupérez des catégories, des scores et un unique indicateur has_violations :

curl -X POST https://api.discuse.com/api/v2/check \
  -H "Content-Type: application/json" \
  -H "X-API-Key: YOUR_API_KEY" \
  -d '{
    "content": {
      "text": "Hello, this is a test message!"
    }
  }'

À partir de là, vous appliquez vos propres seuils et actions. Le guide de démarrage rapide permet de mettre en place une intégration fonctionnelle en quelques minutes, et le guide de modération de contenu par AI détaille l’architecture par bandes de confiance.

Qu’est-ce que la modération de contenu ?

Ce que vous décidez concrètement

Pré-modération ou post-modération

Automatisé, humain, ou les deux

Bien démarrer avec Discuse

Articles associés

Guide de démarrage rapide

Authentification et clés API

Codes d’erreur et de réponse