SheepNav
新上线今天0 投票

Kernel Contracts:为异构芯片上的ML内核正确性提供规范语言

背景与问题

现代机器学习(ML)依赖大量底层内核(kernel)在GPU、NPU等异构硬件上运行。然而,每个内核都携带着一份关于“它到底计算什么”的隐含契约,但很少有人真正将其写下来。当不同平台上的内核产生分歧时——比如AMD上的矩阵乘法与NVIDIA上的梯度不同,或融合注意力内核静默降低累加器精度,或越界访问在一个栈上返回零而在另一个栈上返回垃圾——没有任何正式工件来仲裁争议。

解决方案:Kernel Contracts

来自Cooper Veit的最新论文(arXiv:2604.22032)提出了一种内核契约规范语言,旨在为ML内核的正确性提供跨异构硅片的可度量标准。每个契约包含八个部分:标识符、范围、前置条件、后置条件、容差、参考预言机、测量协议和违反签名。论文定义了涵盖精度、顺序、编译器诱发和异常值故障模式的十二个契约类别,每个都基于已发表的实证证据。

关键要求:三态校准

论文要求每个契约必须通过三态校准:至少存在一个符合参考的实现,以及一个违反契约但能通过基本功能测试的实现。这确保了契约既能明确正确行为,也能捕获看似正常但实际错误的“暗藏问题”。

实际案例验证

作者将框架应用于三个文件记载的事件:

  • 华为Ascend的静默精度强制转换:某些操作在未通知用户的情况下降低了精度。
  • Sakana AI的CUDA工程师奖励黑客:利用不精确的契约漏洞获取不当奖励。
  • AMD的越界静默接受:越界访问被错误地视为合法。

每个案例都被映射到具有可测量签名的特定契约违反,展示了框架的诊断能力。

行业意义

论文将内核契约套件类比为ISASecure对工业控制系统(IEC 62443)的合规评级,期望为ML内核提供类似的规范性参考。随着异构计算成为主流,这种形式化的契约语言有望成为AI基础设施质量保障的关键工具,减少因平台差异导致的模型行为不可预测性问题。

小结

Kernel Contracts为长期被忽视的内核正确性问题提供了严谨的解决方案。它不仅是一套规范,更是一种可操作的质量度量体系,有望推动ML系统在异构硬件上的可靠性、可复现性和安全性迈上新台阶。

延伸阅读

  1. Mochi:用元学习对齐预训练与推理,打造高效的图基础模型
  2. 通用Transformer为何需要记忆:自适应递归推理中的深度-状态权衡
  3. 当报价崩塌:限价订单簿中瞬时机械流动性侵蚀的检测
查看原文