有限道德框架：AI道德计算的新范式

当AI遭遇道德困境：有限理性框架下的道德计算新范式

传统上，道德认知被建模为对固定伦理理论（如义务论、后果论、美德伦理学）的遵循，表现为静态规则或价值函数。然而，这种视角忽视了智能体（无论是人类还是AI）在计算资源上的根本限制。近日，一篇发表于AAAI-26机器学习伦理研讨会的论文《Bounded Morality: Defining the Space of Moral Computation》提出了有限道德（Bounded Morality） 框架，将赫伯特·西蒙的有限理性概念扩展至道德领域，为理解AI系统的道德对齐提供了全新视角。

两个维度定义道德空间

论文作者Max Kanwal、Caryn Tran和Patrick Mineault指出，道德问题可以沿着两个正交维度进行形式化：

道德广度（Moral Breadth）：被视为道德相关实体的范围，例如是否仅考虑人类，还是扩展到动物、生态系统甚至AI本身。
道德深度（Moral Depth）：评估这些实体交互所需的推理整合程度，例如是简单规则判断还是需要复杂的因果推理。

由于有限的计算资源，这两个维度之间存在不可避免的权衡，从而定义了一个可行的道德计算空间。在这个空间内，不同的伦理理论并非关于道德真理的竞争性主张，而是针对不同需求场景的局部高效策略。

从固定规则到资源约束下的策略

这一框架颠覆了传统观点：道德不是一套放之四海而皆准的规则集合，而是资源约束下的优化结果。例如，在紧急情况下，人类可能依赖快速直觉（低深度、低广度），而在深思熟虑时则能考虑更广泛的利益相关者（高广度、高深度）。AI系统的道德对齐因此不再取决于对人类判断的直接模仿，而依赖于道德推理能力的扩展与分配。

论文还引入了道德遗憾（Moral Regret） 和约束下的道德进步（Moral Progress under Constraint） 的形式化概念。道德遗憾指智能体在有限资源下做出的决策与理想决策之间的差距；道德进步则体现为通过优化资源分配来缩小这一差距。

对AI对齐的意义

对于AI安全领域，这一框架具有重要启示。当前主流方法试图让AI模仿人类道德判断，但人类的道德决策本身也受限于有限资源。直接模仿可能将人类的偏见和局限性一并复制。相反，研究者应关注如何为AI系统设计可扩展的道德推理能力，使其能在不同情境下动态调整广度与深度，从而做出更优决策。

论文本身是理论性的，但为后续实证研究奠定了基础。例如，可以设计实验测量不同AI模型在道德广度与深度上的表现，或开发新的训练方法以优化资源分配。

小结

有限道德框架将道德问题重新定义为一种计算资源分配问题，为理解人类道德认知和设计道德AI提供了统一的理论基础。它提醒我们：完美的道德是不存在的，但在资源约束下追求更优的道德计算是可能的。这一思路或许能帮助AI社区跳出“对齐人类价值观”的模糊目标，转向更可量化的道德计算能力评估与优化。

有限道德：定义道德计算的空间

当AI遭遇道德困境：有限理性框架下的道德计算新范式

两个维度定义道德空间

从固定规则到资源约束下的策略

对AI对齐的意义

小结

延伸阅读

相关资讯