Kernel Contracts：ML内核正确性的规范语言

背景与问题

现代机器学习（ML）依赖大量底层内核（kernel）在GPU、NPU等异构硬件上运行。然而，每个内核都携带着一份关于“它到底计算什么”的隐含契约，但很少有人真正将其写下来。当不同平台上的内核产生分歧时——比如AMD上的矩阵乘法与NVIDIA上的梯度不同，或融合注意力内核静默降低累加器精度，或越界访问在一个栈上返回零而在另一个栈上返回垃圾——没有任何正式工件来仲裁争议。

解决方案：Kernel Contracts

来自Cooper Veit的最新论文（arXiv:2604.22032）提出了一种内核契约规范语言，旨在为ML内核的正确性提供跨异构硅片的可度量标准。每个契约包含八个部分：标识符、范围、前置条件、后置条件、容差、参考预言机、测量协议和违反签名。论文定义了涵盖精度、顺序、编译器诱发和异常值故障模式的十二个契约类别，每个都基于已发表的实证证据。

关键要求：三态校准

论文要求每个契约必须通过三态校准：至少存在一个符合参考的实现，以及一个违反契约但能通过基本功能测试的实现。这确保了契约既能明确正确行为，也能捕获看似正常但实际错误的“暗藏问题”。

实际案例验证

作者将框架应用于三个文件记载的事件：

华为Ascend的静默精度强制转换：某些操作在未通知用户的情况下降低了精度。
Sakana AI的CUDA工程师奖励黑客：利用不精确的契约漏洞获取不当奖励。
AMD的越界静默接受：越界访问被错误地视为合法。

每个案例都被映射到具有可测量签名的特定契约违反，展示了框架的诊断能力。

行业意义

论文将内核契约套件类比为ISASecure对工业控制系统（IEC 62443）的合规评级，期望为ML内核提供类似的规范性参考。随着异构计算成为主流，这种形式化的契约语言有望成为AI基础设施质量保障的关键工具，减少因平台差异导致的模型行为不可预测性问题。

小结

Kernel Contracts为长期被忽视的内核正确性问题提供了严谨的解决方案。它不仅是一套规范，更是一种可操作的质量度量体系，有望推动ML系统在异构硬件上的可靠性、可复现性和安全性迈上新台阶。

Kernel Contracts：为异构芯片上的ML内核正确性提供规范语言

背景与问题

解决方案：Kernel Contracts

关键要求：三态校准

实际案例验证

行业意义

小结

延伸阅读

相关资讯