Annotator Policy Models: 揭示AI安全标注分歧的可解释工具

AI 安全政策的制定高度依赖人工或大模型对输出内容的标注，但标注者之间的分歧长期困扰着行业。这种分歧究竟源于操作失误、政策歧义，还是价值观差异？传统方法难以低成本区分。最新研究提出 Annotator Policy Models (APMs)，通过可解释模型从标注行为中逆向学习标注者的内部安全政策，无需额外询问即可揭示分歧根源，为更精准、透明的安全政策设计提供新工具。

分歧的三种来源

安全政策定义了 AI 输出的“安全”与“不安全”边界，指导数据标注和模型开发。然而，标注不一致普遍存在。研究将其归为三类：

操作失误：标注者误解或错误执行任务，需加强质量控制；
政策歧义：政策文本表述模糊，导致不同解读，需澄清措辞；
价值多元：标注者本身持有不同的安全观念，需通过讨论整合多元视角。

直接询问标注者理由成本高昂，且自我报告往往不可靠——无论是人类还是大模型，都难以准确回溯决策过程。

APMs：从行为中学习政策

APMs 的核心思路是：仅利用标注者的标签行为数据，训练一个可解释的模型来“模仿”其内部安全政策。模型准确率超过 80%，并能忠实预测标注者在反事实编辑下的反应，在受控实验中成功还原已知的政策差异。

这意味着研究者可以“看见”标注者的推理逻辑，而无需额外负担。

两大应用场景

论文展示了 APMs 的两项关键能力：

揭示政策歧义：通过对比不同标注者的模型，发现他们对同一安全指令的解读差异。例如，部分标注者可能更看重“冒犯性语言”，而另一些则聚焦“事实准确性”。
揭示价值多元：发现不同人口统计学群体在安全优先级上的系统性差异，例如年龄、文化背景对“有害内容”定义的显著影响。

这些能力为政策设计提供了数据驱动的基础，使安全标准更具包容性。

行业意义

当前 AI 安全领域，标注一致性是评估模型可靠性的关键指标。APMs 提供了一种低成本、非侵入式的诊断工具，帮助团队区分“需要澄清政策”还是“需要尊重多元观点”。随着 AI 系统部署到全球不同文化环境，理解标注者的内在政策差异将成为安全治理的重要环节。

论文发表于 ACM FAccT 2026，共 38 页，包含 13 张图表。代码与数据尚未公开，但方法本身具有较高的实用潜力。

可解释性方法揭示标注者安全政策分歧：Annotator Policy Models 登场

分歧的三种来源

APMs：从行为中学习政策

两大应用场景

行业意义

延伸阅读

相关资讯