ARMOR 2025：首个军事条令对齐的大模型安全基准

随着大语言模型（LLM）在国防领域的应用探索不断深入，如何确保模型在军事决策中遵守法律与伦理规则成为关键挑战。现有安全基准主要聚焦于通用社会风险，无法覆盖军事行动特有的合规要求。为此，来自弗吉尼亚理工大学的研究团队推出了 ARMOR 2025——首个基于军事条令的安全评估基准。

ARMOR 2025 的构建基础是三项核心军事条令：《战争法》、《交战规则》和《联合伦理条例》。研究团队从这些条令中提取原文，生成了 519 个多选题，每个问题都保留了原始规则的意图。基准的评估框架借鉴了军事决策中的 OODA 循环（观察、定向、决策、行动），将问题划分为 12 个类别，系统性地测试模型在军事相关决策中的准确性和拒绝能力。

研究团队对 21 个商用大模型 进行了评估，结果揭示了当前模型在军事安全对齐方面的严重不足。例如，许多模型在涉及“平民保护”或“比例原则”的问题上表现出不一致的推理，甚至在某些场景下给出违反《战争法》的建议。这表明，通用安全对齐方法无法满足军事场景的严格要求。

ARMOR 2025 的发布填补了 LLM 军事安全评估的空白，为未来国防领域的 AI 应用提供了重要的测试工具。随着各国军方对 AI 辅助决策的兴趣日益增长，这类专门化基准将有助于确保技术部署符合国际法和伦理标准。研究团队计划持续更新基准，并呼吁更多机构参与构建更全面的军事安全评估体系。

ARMOR 2025：专为军事场景设计的大模型安全评估基准

延伸阅读

相关资讯