HealthCraft:面向急诊医学的强化学习安全环境
背景:静态测试无法捕捉急诊关键失败模式
前沿语言模型正以前所未有的速度被部署到临床工作流中,但安全评估基础设施严重滞后。传统的医学问答基准(如MedQA)仅评估单轮回答正确率,完全无法捕捉急诊医学中的关键失败模式——轨迹级安全崩溃、工具滥用以及在持续临床压力下的妥协行为。
HealthCraft:首个面向急诊医学的RL安全环境
HealthCraft 是首个公开的、专为急诊医学设计的强化学习安全环境,基于 Corecraft 框架改造。它构建在 FHIR R4 世界状态之上,包含 14 种实体类型和 3,987 个种子实体,并公开 24 个 MCP 工具。环境采用双层奖励机制:一旦任何安全关键标准被违反,立即将奖励归零,从而强制模型学习轨迹级安全行为。
HealthCraft 发布了 195 个任务(横跨六大类别),针对 2,255 个二元评价标准(其中 515 个为安全关键标准)进行评分。后续补充的 10 个负类任务将总任务数扩展至 205 个,评价标准增加至 2,337 个。
前沿模型表现:多步流程接近零分
研究团队在两个前沿模型上进行了测试,结果令人震惊:
- Claude Opus 4.6:Pass@1 为 24.8% [21.5-28.4],安全失败率 27.5%
- GPT-5.4:Pass@1 仅为 12.6% [10.2-15.6],安全失败率高达 34.0%
更值得警惕的是,在多步工作流(最接近真实急诊护理的代理)中,两个模型的表现均接近零——Claude 为 1.0%,GPT-5.4 为 0.0%,尽管它们在单个步骤上表现出部分能力。这说明模型缺乏连贯的轨迹级安全推理能力。
基础设施保真度:影响评估结果
研究还发现,基础设施的 bug 修复会显著改变模型排名。从 v2 到 v8 版本之间共修复了 6 个基础设施 bug,这些修复甚至重新排序了哪个模型更强——这表明基础设施保真度本身就是测量的一部分。
评估与训练:奖励信号的陷阱
HealthCraft 使用确定性 LLM 评委覆盖层来降低评估噪声,并进行了 60 次负类烟雾测试。结果显示,奖励信号并非“拿来就能训练安全”——例如,约束标准通过率高达 0.929,这种可被评估框架容忍的“可游戏性”,在训练奖励中却完全不可接受。
未来与开源
研究团队已搭建了与 Megatron + SGLang + GRPO 训练循环的耦合接口(详见 Corecraft 第 5.2 节),但将训练奖励消融实验留作未来工作。HealthCraft 的环境、任务、评价标准和评估框架已在 Apache 2.0 协议下开源。
小结:HealthCraft 揭示了当前前沿语言模型在急诊医学场景中的严重安全缺陷。它不仅是评估工具,更是一个警示:在安全基础设施跟上之前,盲目部署可能带来灾难性后果。
