HealthCraft：急诊医学AI安全评估新环境

背景：静态测试无法捕捉急诊关键失败模式

前沿语言模型正以前所未有的速度被部署到临床工作流中，但安全评估基础设施严重滞后。传统的医学问答基准（如MedQA）仅评估单轮回答正确率，完全无法捕捉急诊医学中的关键失败模式——轨迹级安全崩溃、工具滥用以及在持续临床压力下的妥协行为。

HealthCraft：首个面向急诊医学的RL安全环境

HealthCraft 是首个公开的、专为急诊医学设计的强化学习安全环境，基于 Corecraft 框架改造。它构建在 FHIR R4 世界状态之上，包含 14 种实体类型和 3,987 个种子实体，并公开 24 个 MCP 工具。环境采用双层奖励机制：一旦任何安全关键标准被违反，立即将奖励归零，从而强制模型学习轨迹级安全行为。

HealthCraft 发布了 195 个任务（横跨六大类别），针对 2,255 个二元评价标准（其中 515 个为安全关键标准）进行评分。后续补充的 10 个负类任务将总任务数扩展至 205 个，评价标准增加至 2,337 个。

前沿模型表现：多步流程接近零分

研究团队在两个前沿模型上进行了测试，结果令人震惊：

Claude Opus 4.6：Pass@1 为 24.8% [21.5-28.4]，安全失败率 27.5%
GPT-5.4：Pass@1 仅为 12.6% [10.2-15.6]，安全失败率高达 34.0%

更值得警惕的是，在多步工作流（最接近真实急诊护理的代理）中，两个模型的表现均接近零——Claude 为 1.0%，GPT-5.4 为 0.0%，尽管它们在单个步骤上表现出部分能力。这说明模型缺乏连贯的轨迹级安全推理能力。

基础设施保真度：影响评估结果

研究还发现，基础设施的 bug 修复会显著改变模型排名。从 v2 到 v8 版本之间共修复了 6 个基础设施 bug，这些修复甚至重新排序了哪个模型更强——这表明基础设施保真度本身就是测量的一部分。

评估与训练：奖励信号的陷阱

HealthCraft 使用确定性 LLM 评委覆盖层来降低评估噪声，并进行了 60 次负类烟雾测试。结果显示，奖励信号并非“拿来就能训练安全”——例如，约束标准通过率高达 0.929，这种可被评估框架容忍的“可游戏性”，在训练奖励中却完全不可接受。

未来与开源

研究团队已搭建了与 Megatron + SGLang + GRPO 训练循环的耦合接口（详见 Corecraft 第 5.2 节），但将训练奖励消融实验留作未来工作。HealthCraft 的环境、任务、评价标准和评估框架已在 Apache 2.0 协议下开源。

小结：HealthCraft 揭示了当前前沿语言模型在急诊医学场景中的严重安全缺陷。它不仅是评估工具，更是一个警示：在安全基础设施跟上之前，盲目部署可能带来灾难性后果。

HealthCraft：面向急诊医学的强化学习安全环境