Skip to main content
文档
学习中心

通过完整指南、教程和 API 文档,掌握内容审核

快捷链接

什么是内容审核?

内容审核是指平台如何在大规模场景下决定哪些用户提交的消息、图片和文件可以展示给其他用户,哪些会被拦截、标记,或进入人工复核。核心矛盾始终相同:过于宽松,垃圾信息、骚扰和违法内容会赶走真实用户;过于严格,又会因为误判把正常内容埋掉。任何存在用户生成内容的平台,都处在这条光谱上的某个位置,无论它是有意识地做审核,还是在无意中形成了审核机制。

Discuse 负责这个决策中的检测部分。一次 API 调用会返回按类别拆分的结果——垃圾信息、毒性内容、NSFW、恶意软件和语言——每个类别都带有置信度分数,因此阈值和处理动作由你自己的代码掌控。你掌握策略;API 负责分类。

你实际在决定什么

一个审核系统会针对每一条内容回答三个问题:

  1. 这是否有害,具体以什么方式有害? 不是简单的是/否,而是每个类别都有一个分数,因为同一条消息可能既有轻微垃圾信息特征,同时又明显具有毒性。
  2. 模型有多确定? 0.98 的毒性分数和 0.55 代表的是截然不同的决策。Discuse 会返回置信度,让你可以对明确的情况自动处理,把模棱两可的中间地带交给人工。
  3. 你要如何处理? 拦截、隐性标记、进入审核队列,或允许通过。这属于策略,并且始终由你决定。

Discuse 分类的类别包括:

类别 能识别什么 示例
垃圾信息 未经请求的推广、诈骗、链接农场 “🎁 你中奖了!到 bit.ly/… 领取”
毒性内容 骚扰、仇恨言论、威胁 针对性辱骂、人肉搜索、暴力威胁
NSFW 成人或血腥图像 裸露、色情、血腥
恶意软件 恶意文件和链接 受感染的附件、钓鱼 URL
语言 消息所使用的语言 路由、区域规则、预期语言检查

事前审核与事后审核

第一个真正的选择是什么时候检查。

事前审核——在内容可见之前进行检查。这样有害内容永远不会被展示出来,但每条发布都要等待一次 API 往返,因此适合可以接受短暂延迟的场景(文本检查很快;图片或文件扫描会更久,因为需要获取并分析 URL)。把它用于高风险场景:全新账号的首条内容、发给陌生人的私信、任何法律敏感内容。

事后审核——先立即发布,在后台检查,之后再移除。对用户来说是即时的,但有害内容会短暂上线。适合速度更重要且几秒钟曝光风险较低的场景(成熟用户、低风险频道)。

大多数平台会同时采用两种方式,并按场景和用户来选择:可信成员的消息会立即发布,而新账号发布的第一条链接会被暂存,直到通过检查。

自动审核、人工审核,还是两者结合

纯人工审核无法规模化,而且会让审核人员长期面对最糟糕的内容而疲惫不堪。纯自动化速度快、一致性强,但在真正模棱两可的情况下会出错——同样的话在一个语境里是玩笑,在另一个语境里却是威胁。

经得起考验的方法是按置信度分层:让模型自动处理明确的情况,只把不确定的中间地带交给人工。

  • 高置信度(例如高于 0.95):自动允许或自动移除。
  • 中等置信度(大约 0.5–0.95):发布或暂存,但进入人工队列。
  • 低置信度:允许通过,并抽样用于监控。

这样可以把人工注意力集中在真正需要判断力的一小部分内容上,而不是浪费在模型已经能正确处理的大多数内容上。配置阈值 介绍了如何为你的平台选择这些分层。

开始使用 Discuse

Discuse 通过一个端点提供所有这些能力。发送文本、图片 URL 或文件;返回类别、分数以及一个 has_violations 标志:

curl -X POST https://api.discuse.com/api/v2/check \
  -H "Content-Type: application/json" \
  -H "X-API-Key: YOUR_API_KEY" \
  -d '{
    "content": {
      "text": "Hello, this is a test message!"
    }
  }'

接下来,你可以应用自己的阈值和处理动作。快速入门指南 可以让你在几分钟内完成一个可运行的集成,AI 内容审核指南 则会深入讲解按置信度分层的架构。

Discuse 团队 撰写 · 最后更新于 June 2026

相关文章

快速入门指南

在 5 分钟内开始使用 Discuse API

身份验证和 API 密钥

如何验证请求并安全地管理你的 API 密钥

错误和响应代码

HTTP 状态、quota-exhausted 200 响应,以及如何正确处理 API 错误