İçerik Moderasyonu Nedir?
İçerik moderasyonu, bir platformun kullanıcılar tarafından gönderilen mesajların, görsellerin ve dosyaların hangilerinin diğer kullanıcılara ulaşacağına; hangilerinin engelleneceğine, işaretleneceğine veya bir insan tarafından incelenmek üzere bekletileceğine büyük ölçekte karar verme yöntemidir. Gerilim hep aynıdır: Fazla gevşek davranırsanız spam, taciz ve yasa dışı içerik gerçek kullanıcıları kaçırır; fazla katı davranırsanız meşru gönderileri yanlış pozitiflerin altında ezersiniz. Kullanıcı üretimi içeriğe sahip her platform, ister bilinçli ister istemeden moderasyon yapsın, bu yelpazenin bir yerinde yaşar.
Discuse, bu kararın tespit tarafını üstlenir. Tek bir API çağrısı; spam, toksisite, NSFW, kötü amaçlı yazılım ve dil için kategori bazında bir döküm ve her biri için güven skoru döndürür. Böylece eşikler ve aksiyonlar sizin kendi kodunuzun kontrolünde kalır. Politikayı siz yönetirsiniz; sınıflandırmayı API yapar.
Aslında neye karar veriyorsunuz?
Bir moderasyon sistemi, her içerik parçası için üç soruya yanıt verir:
- Bu zararlı mı, zararlıysa nasıl? Bu bir evet/hayır sorusu değildir; kategori başına bir skor gerekir, çünkü tek bir mesaj aynı anda hem hafif spam hem de açıkça toksik olabilir.
- Model ne kadar emin? 0,98 toksisite skoru ile 0,55 çok farklı kararlardır. Discuse güven skorunu döndürür; böylece net vakalarda otomatik aksiyon alabilir, belirsiz orta bölgeyi ise bir insana yönlendirebilirsiniz.
- Bu konuda siz ne yaparsınız? Engellemek, gizli şekilde işaretlemek, inceleme kuyruğuna almak veya izin vermek. Bu politikadır ve sizin kontrolünüzde kalır.
Discuse tarafından sınıflandırılan kategoriler:
| Kategori | Neyi yakalar | Örnek |
|---|---|---|
| Spam | İstenmeyen tanıtımlar, dolandırıcılıklar, link çiftlikleri | "🎁 Kazandınız! bit.ly/… adresinden alın" |
| Toksisite | Taciz, nefret söylemi, tehditler | Hedefli hakaretler, doxxing, şiddet tehditleri |
| NSFW | Yetişkinlere yönelik veya grafik görseller | Çıplaklık, pornografi, vahşet |
| Kötü amaçlı yazılım | Zararlı dosyalar ve bağlantılar | Enfekte ekler, kimlik avı URL’leri |
| Dil | Bir mesajın yazıldığı dil | Yönlendirme, yerel ayar kuralları, beklenen dil kontrolleri |
Ön moderasyon ve sonradan moderasyon
İlk gerçek tercih, kontrolü ne zaman yapacağınızdır.
Ön moderasyon — içerik görünür olmadan önce kontrol edilir. Zararlı hiçbir şey asla yayına çıkmaz, ancak her gönderi bir API gidiş-dönüşünü bekler. Bu nedenle kısa bir gecikmenin kabul edilebilir olduğu yüzeyler için uygundur (metin kontrolü hızlıdır; görsel veya dosya taraması daha uzun sürer çünkü URL’nin getirilip analiz edilmesi gerekir). Bunu yüksek riskli durumlar için kullanın: yepyeni hesapların ilk gönderileri, yabancılara gönderilen DM’ler, hukuken hassas olan her şey.
Sonradan moderasyon — içerik hemen yayınlanır, kontrol arka planda yapılır ve gerekirse sonradan kaldırılır. Kullanıcı için anlıktır, ancak zararlı içerik kısa bir süre canlı kalır. Hızın önemli olduğu ve birkaç saniyelik görünürlüğün düşük risk taşıdığı yerlerde kullanın (güvenilir kullanıcılar, düşük riskli kanallar).
Çoğu platform ikisini de çalıştırır ve yüzeye ve kullanıcıya göre seçim yapar: Güvenilir bir üyenin mesajı anında yayınlanırken, yeni bir hesabın ilk bağlantısı temiz çıkana kadar bekletilir.
Otomatik, insan destekli ya da ikisi birden
Tamamen insan incelemesine dayalı süreç ölçeklenmez ve insanları en kötü içeriklerle boğarak yıpratır. Tamamen otomasyon ise hızlı ve tutarlıdır, ancak gerçekten belirsiz vakalarda yanılır — aynı kelimeler bir bağlamda şaka, başka bir bağlamda tehdit olabilir.
Dayanıklı yaklaşım güven aralıklarına dayalıdır: Modelin net vakalarda otomatik karar vermesine izin verin, yalnızca belirsiz orta bölgeyi insanlara gönderin.
- Yüksek güven (ör. 0,95’in üzeri): otomatik izin verin veya otomatik kaldırın.
- Orta güven (kabaca 0,5–0,95): yayınlayın ya da bekletin, ancak bir insan için kuyruğa alın.
- Düşük güven: izin verin ve izleme için örnekleyin.
Bu, insan dikkatini modelin zaten doğru şekilde ele aldığı çoğunluk yerine, muhakemenin gerçekten değer kattığı küçük içerik dilimine odaklar. Eşikleri Yapılandırma, platformunuz için bu aralıkları nasıl seçeceğinizi açıklar.
Discuse ile başlamaya başlamak
Discuse tüm bunları tek bir endpoint üzerinden sunar. Metin, görsel URL’leri veya dosyalar gönderin; kategorileri, skorları ve tek bir has_violations bayrağını geri alın:
curl -X POST https://api.discuse.com/api/v2/check \
-H "Content-Type: application/json" \
-H "X-API-Key: YOUR_API_KEY" \
-d '{
"content": {
"text": "Hello, this is a test message!"
}
}'
Bundan sonra kendi eşiklerinizi ve aksiyonlarınızı uygularsınız. Hızlı Başlangıç Rehberi birkaç dakika içinde çalışan bir entegrasyon kurmanızı sağlar; AI İçerik Moderasyonu Rehberi ise güven aralıklarına dayalı mimariyi ayrıntılı biçimde ele alır.