精选今天0 投票

DisaBench：专为语言模型设计的残障危害参与式评估框架

大型语言模型（LLM）的安全性基准测试长期以来忽视了残障相关危害。近日，arXiv上发布的一项新研究提出了DisaBench——一个由残障人士与红队专家共同创建的残障危害评估框架，旨在填补这一空白。

核心构成

DisaBench包含三大要素：

十二类残障危害分类体系：涵盖从歧视性语言到能力主义假设等维度，由残障社群参与定义。
评估方法论：在七个生活领域（如就业、医疗、教育）中配对良性提示与对抗性提示，系统检测模型输出。
数据集：包含175条提示及525个人工标注的提示-回答对，标注者均为有亲身残障经历的评估员。

关键发现

研究通过四名残障标注者的评估揭示出三个重要结论：

危害率因残障类型而异：不同残障群体遭遇的有害输出频率差异显著，且在多模态场景中可能叠加。
术语驱动的危害具有文化时效性：特定术语是否构成伤害取决于文化背景与时代，无法通用化衡量。
标准安全评估漏检细微危害：常规基准能发现明显攻击，但只有领域专家才能识别出那些隐蔽的、嵌入上下文的伤害。

行业影响

当前主流安全基准（如MMLU、TruthfulQA）主要针对通用有害内容，但残障相关危害往往更微妙。例如，模型可能看似中立地描述“残疾人是负担”，或在使用辅助技术时产生歧视性输出。DisaBench的参与式设计确保了评估标准由社群驱动，而非仅从外部定义。

开源计划

研究团队将在Hugging Face及开源红队框架中发布数据集、分类体系与方法论，以便直接集成到现有安全流程中，无需额外基础设施。

这一工作不仅为AI安全评估提供了新工具，更强调了残障危害的个性化、交叉性与社群定义性——正如论文所言，“它不能脱离一个人的完整背景而被孤立地处理”。对于致力于包容性AI开发的团队而言，DisaBench或将成为评估流程中的关键一环。

延伸阅读

相关资讯

CHAL：分层智能体语言议会——将多智能体辩论重塑为信念优化引擎

On the Size Complexity and Decidability of First-Order Progression

CLIPR框架：让大模型从有限对话中学习用户偏好，实现更人性化的决策

揭示VLM的可解释故障模式：REVELIO框架助力安全关键应用