SheepNav
精选今天0 投票

DisaBench:专为语言模型设计的残障危害参与式评估框架

大型语言模型(LLM)的安全性基准测试长期以来忽视了残障相关危害。近日,arXiv上发布的一项新研究提出了DisaBench——一个由残障人士与红队专家共同创建的残障危害评估框架,旨在填补这一空白。

核心构成

DisaBench包含三大要素:

  • 十二类残障危害分类体系:涵盖从歧视性语言到能力主义假设等维度,由残障社群参与定义。
  • 评估方法论:在七个生活领域(如就业、医疗、教育)中配对良性提示与对抗性提示,系统检测模型输出。
  • 数据集:包含175条提示及525个人工标注的提示-回答对,标注者均为有亲身残障经历的评估员。

关键发现

研究通过四名残障标注者的评估揭示出三个重要结论:

  1. 危害率因残障类型而异:不同残障群体遭遇的有害输出频率差异显著,且在多模态场景中可能叠加。
  2. 术语驱动的危害具有文化时效性:特定术语是否构成伤害取决于文化背景与时代,无法通用化衡量。
  3. 标准安全评估漏检细微危害:常规基准能发现明显攻击,但只有领域专家才能识别出那些隐蔽的、嵌入上下文的伤害。

行业影响

当前主流安全基准(如MMLU、TruthfulQA)主要针对通用有害内容,但残障相关危害往往更微妙。例如,模型可能看似中立地描述“残疾人是负担”,或在使用辅助技术时产生歧视性输出。DisaBench的参与式设计确保了评估标准由社群驱动,而非仅从外部定义。

开源计划

研究团队将在Hugging Face及开源红队框架中发布数据集、分类体系与方法论,以便直接集成到现有安全流程中,无需额外基础设施。

这一工作不仅为AI安全评估提供了新工具,更强调了残障危害的个性化、交叉性与社群定义性——正如论文所言,“它不能脱离一个人的完整背景而被孤立地处理”。对于致力于包容性AI开发的团队而言,DisaBench或将成为评估流程中的关键一环。

延伸阅读

  1. CHAL:分层智能体语言议会——将多智能体辩论重塑为信念优化引擎
  2. On the Size Complexity and Decidability of First-Order Progression
  3. CLIPR框架:让大模型从有限对话中学习用户偏好,实现更人性化的决策
查看原文