BODHI:精准推断操作系统内核规格,LLM Pass@1 飙升至 96.73%
背景:内核形式化验证的瓶颈
操作系统内核的形式化验证需要精确的规格说明(specifications),以捕捉系统调用的预期行为。然而,手动编写这些规格需要深厚的领域知识,非常耗时且容易出错。近年来,大型语言模型(LLM)被用来自动化这一过程,但在 OSV-Bench 基准测试中(包含 245 个源自 Hyperkernel 内核的规格生成任务),最佳报告的 Pass@1 仅为 55.10%。
BODHI:领域知识注入的提示方法
来自 Zhiming Chang 和 Ziyang Li 的研究团队提出了一种名为 BODHI(Domain Knowledge Prompting)的方法,通过结构化领域知识提示来提升 LLM 的规格生成能力。BODHI 在标准少样本提示(few-shot prompt)基础上,增加了一个结构化的 C 到 Python 翻译指南,覆盖了 15 类领域特定的翻译模式。该指南受 结构化思维链(SCoT) 启发,按关注点分离原则组织,将前置条件提取和后置条件生成作为独立的类别处理。
实验结果:全面超越基线
研究团队在来自 6 个提供商(Anthropic、Mistral、Amazon、DeepSeek、Meta、Alibaba) 的 9 个模型 上进行了评估,涵盖了密集、混合专家和推理架构。结果显示,BODHI 提升了每一个测试模型,增益范围从 +11% 到 +32%。最佳配置 Claude Opus 4.6 + BODHI 达到了 96.73% 的 Pass@1,几乎完美。
BODHI 同时减少了语法错误和语义错误,对具有足够指令遵循能力、能够利用结构化参考材料的模型效果最为显著。
意义:模型无关的通用技术
这些结果表明,领域知识注入是一种与模型无关的技术,能够显著缩小通用代码生成与形式化规格合成之间的差距。BODHI 不仅为操作系统内核验证提供了高效工具,也为其他需要领域专业知识的代码生成任务提供了可借鉴的方法。
论文信息:arXiv:2605.23931,提交于 2026 年 4 月 22 日。