逃离一致性陷阱：防御性指标评估规则型AI

内容审核系统通常通过衡量与人工标签的一致性来评估。但在规则治理的环境中，这一假设失效：多个决策可能都与政策逻辑一致，而一致性指标会惩罚合理决策，将模糊性误判为错误——我们称之为“一致性陷阱”。

该研究将评估形式化为基于政策的正确性，并引入了防御性指数和模糊性指数。为了在不增加额外审计轮次的情况下估计推理稳定性，他们提出了概率防御性信号，该信号源自审计模型的令牌对数概率。研究利用大语言模型推理轨迹作为治理信号，而非分类输出：审计模型不判断内容是否违规，而是验证提议的决策是否可以从规则层级中逻辑推导出来。

研究在多个社区的 193,000 多个 Reddit 审核决策上验证了该框架，发现基于一致性的指标与基于政策的指标之间存在 33 到 46.6 个百分点的差距，模型中 79.8% 到 80.6% 的假阴性对应的是基于政策的合理决策而非真正错误。进一步分析表明，测量到的模糊性主要由规则特异性驱动：对同一社区规则的三个层级下的 37,286 个相同决策进行审计，模糊性指数降低了 10.8 个百分点，而防御性指数保持稳定。重复采样分析将概率防御性信号的方差主要归因于治理模糊性而非解码噪声。基于这些信号构建的“治理门”实现了 78.6% 的自动化覆盖率，风险降低 64.9%。

这些结果表明，在规则治理的环境中，评估应从与历史标签的一致性转向在明确规则下的推理有效性。

逃离“一致性陷阱”：评估规则型AI的新方法——防御性指标

延伸阅读

相关资讯