什么是内容审核？

内容审核是指平台如何在大规模场景下决定哪些用户提交的消息、图片和文件可以展示给其他用户，哪些会被拦截、标记，或进入人工复核。核心矛盾始终相同：过于宽松，垃圾信息、骚扰和违法内容会赶走真实用户；过于严格，又会因为误判把正常内容埋掉。任何存在用户生成内容的平台，都处在这条光谱上的某个位置，无论它是有意识地做审核，还是在无意中形成了审核机制。

Discuse 负责这个决策中的检测部分。一次 API 调用会返回按类别拆分的结果——垃圾信息、毒性内容、NSFW、恶意软件和语言——每个类别都带有置信度分数，因此阈值和处理动作由你自己的代码掌控。你掌握策略；API 负责分类。

你实际在决定什么

一个审核系统会针对每一条内容回答三个问题：

这是否有害，具体以什么方式有害？ 不是简单的是/否，而是每个类别都有一个分数，因为同一条消息可能既有轻微垃圾信息特征，同时又明显具有毒性。
模型有多确定？ 0.98 的毒性分数和 0.55 代表的是截然不同的决策。Discuse 会返回置信度，让你可以对明确的情况自动处理，把模棱两可的中间地带交给人工。
你要如何处理？ 拦截、隐性标记、进入审核队列，或允许通过。这属于策略，并且始终由你决定。

Discuse 分类的类别包括：

类别	能识别什么	示例
垃圾信息	未经请求的推广、诈骗、链接农场	“🎁 你中奖了！到 bit.ly/… 领取”
毒性内容	骚扰、仇恨言论、威胁	针对性辱骂、人肉搜索、暴力威胁
NSFW	成人或血腥图像	裸露、色情、血腥
恶意软件	恶意文件和链接	受感染的附件、钓鱼 URL
语言	消息所使用的语言	路由、区域规则、预期语言检查

事前审核与事后审核

第一个真正的选择是什么时候检查。

事前审核——在内容可见之前进行检查。这样有害内容永远不会被展示出来，但每条发布都要等待一次 API 往返，因此适合可以接受短暂延迟的场景（文本检查很快；图片或文件扫描会更久，因为需要获取并分析 URL）。把它用于高风险场景：全新账号的首条内容、发给陌生人的私信、任何法律敏感内容。

事后审核——先立即发布，在后台检查，之后再移除。对用户来说是即时的，但有害内容会短暂上线。适合速度更重要且几秒钟曝光风险较低的场景（成熟用户、低风险频道）。

大多数平台会同时采用两种方式，并按场景和用户来选择：可信成员的消息会立即发布，而新账号发布的第一条链接会被暂存，直到通过检查。

自动审核、人工审核，还是两者结合

纯人工审核无法规模化，而且会让审核人员长期面对最糟糕的内容而疲惫不堪。纯自动化速度快、一致性强，但在真正模棱两可的情况下会出错——同样的话在一个语境里是玩笑，在另一个语境里却是威胁。

经得起考验的方法是按置信度分层：让模型自动处理明确的情况，只把不确定的中间地带交给人工。

高置信度（例如高于 0.95）：自动允许或自动移除。
中等置信度（大约 0.5–0.95）：发布或暂存，但进入人工队列。
低置信度：允许通过，并抽样用于监控。

这样可以把人工注意力集中在真正需要判断力的一小部分内容上，而不是浪费在模型已经能正确处理的大多数内容上。配置阈值介绍了如何为你的平台选择这些分层。

开始使用 Discuse

Discuse 通过一个端点提供所有这些能力。发送文本、图片 URL 或文件；返回类别、分数以及一个 has_violations 标志：

curl -X POST https://api.discuse.com/api/v2/check \
  -H "Content-Type: application/json" \
  -H "X-API-Key: YOUR_API_KEY" \
  -d '{
    "content": {
      "text": "Hello, this is a test message!"
    }
  }'

接下来，你可以应用自己的阈值和处理动作。快速入门指南可以让你在几分钟内完成一个可运行的集成，AI 内容审核指南则会深入讲解按置信度分层的架构。

什么是内容审核？

你实际在决定什么

事前审核与事后审核

自动审核、人工审核，还是两者结合

开始使用 Discuse

相关文章

快速入门指南

身份验证和 API 密钥

错误和响应代码