BODHI：LLM 推断 OS 内核规格，Pass@1 达 96.73%

背景：内核形式化验证的瓶颈

操作系统内核的形式化验证需要精确的规格说明（specifications），以捕捉系统调用的预期行为。然而，手动编写这些规格需要深厚的领域知识，非常耗时且容易出错。近年来，大型语言模型（LLM）被用来自动化这一过程，但在 OSV-Bench 基准测试中（包含 245 个源自 Hyperkernel 内核的规格生成任务），最佳报告的 Pass@1 仅为 55.10%。

BODHI：领域知识注入的提示方法

来自 Zhiming Chang 和 Ziyang Li 的研究团队提出了一种名为 BODHI（Domain Knowledge Prompting）的方法，通过结构化领域知识提示来提升 LLM 的规格生成能力。BODHI 在标准少样本提示（few-shot prompt）基础上，增加了一个结构化的 C 到 Python 翻译指南，覆盖了 15 类领域特定的翻译模式。该指南受 结构化思维链（SCoT） 启发，按关注点分离原则组织，将前置条件提取和后置条件生成作为独立的类别处理。

实验结果：全面超越基线

研究团队在来自 6 个提供商（Anthropic、Mistral、Amazon、DeepSeek、Meta、Alibaba） 的 9 个模型 上进行了评估，涵盖了密集、混合专家和推理架构。结果显示，BODHI 提升了每一个测试模型，增益范围从 +11% 到 +32%。最佳配置 Claude Opus 4.6 + BODHI 达到了 96.73% 的 Pass@1，几乎完美。

BODHI 同时减少了语法错误和语义错误，对具有足够指令遵循能力、能够利用结构化参考材料的模型效果最为显著。

意义：模型无关的通用技术

这些结果表明，领域知识注入是一种与模型无关的技术，能够显著缩小通用代码生成与形式化规格合成之间的差距。BODHI 不仅为操作系统内核验证提供了高效工具，也为其他需要领域专业知识的代码生成任务提供了可借鉴的方法。

论文信息：arXiv:2605.23931，提交于 2026 年 4 月 22 日。

BODHI：精准推断操作系统内核规格，LLM Pass@1 飙升至 96.73%

背景：内核形式化验证的瓶颈

BODHI：领域知识注入的提示方法

实验结果：全面超越基线

意义：模型无关的通用技术

延伸阅读

相关资讯