SheepNav
精选今天0 投票

有限道德:定义道德计算的空间

当AI遭遇道德困境:有限理性框架下的道德计算新范式

传统上,道德认知被建模为对固定伦理理论(如义务论、后果论、美德伦理学)的遵循,表现为静态规则或价值函数。然而,这种视角忽视了智能体(无论是人类还是AI)在计算资源上的根本限制。近日,一篇发表于AAAI-26机器学习伦理研讨会的论文《Bounded Morality: Defining the Space of Moral Computation》提出了有限道德(Bounded Morality) 框架,将赫伯特·西蒙的有限理性概念扩展至道德领域,为理解AI系统的道德对齐提供了全新视角。

两个维度定义道德空间

论文作者Max Kanwal、Caryn Tran和Patrick Mineault指出,道德问题可以沿着两个正交维度进行形式化:

  • 道德广度(Moral Breadth):被视为道德相关实体的范围,例如是否仅考虑人类,还是扩展到动物、生态系统甚至AI本身。
  • 道德深度(Moral Depth):评估这些实体交互所需的推理整合程度,例如是简单规则判断还是需要复杂的因果推理。

由于有限的计算资源,这两个维度之间存在不可避免的权衡,从而定义了一个可行的道德计算空间。在这个空间内,不同的伦理理论并非关于道德真理的竞争性主张,而是针对不同需求场景的局部高效策略。

从固定规则到资源约束下的策略

这一框架颠覆了传统观点:道德不是一套放之四海而皆准的规则集合,而是资源约束下的优化结果。例如,在紧急情况下,人类可能依赖快速直觉(低深度、低广度),而在深思熟虑时则能考虑更广泛的利益相关者(高广度、高深度)。AI系统的道德对齐因此不再取决于对人类判断的直接模仿,而依赖于道德推理能力的扩展与分配

论文还引入了道德遗憾(Moral Regret)约束下的道德进步(Moral Progress under Constraint) 的形式化概念。道德遗憾指智能体在有限资源下做出的决策与理想决策之间的差距;道德进步则体现为通过优化资源分配来缩小这一差距。

对AI对齐的意义

对于AI安全领域,这一框架具有重要启示。当前主流方法试图让AI模仿人类道德判断,但人类的道德决策本身也受限于有限资源。直接模仿可能将人类的偏见和局限性一并复制。相反,研究者应关注如何为AI系统设计可扩展的道德推理能力,使其能在不同情境下动态调整广度与深度,从而做出更优决策。

论文本身是理论性的,但为后续实证研究奠定了基础。例如,可以设计实验测量不同AI模型在道德广度与深度上的表现,或开发新的训练方法以优化资源分配。

小结

有限道德框架将道德问题重新定义为一种计算资源分配问题,为理解人类道德认知和设计道德AI提供了统一的理论基础。它提醒我们:完美的道德是不存在的,但在资源约束下追求更优的道德计算是可能的。这一思路或许能帮助AI社区跳出“对齐人类价值观”的模糊目标,转向更可量化的道德计算能力评估与优化。

延伸阅读

  1. 构建认知型AI素养:学生与AI协作编程中的认知目标与过程检测
  2. A Contextual-Bandit Oversight Game with Two-Sided Informational Asymmetry
  3. RareDxR1:无需人类标注的罕见病自主诊断AI,突破开放式推理瓶颈
查看原文