Pramana：用正理派逻辑微调LLM，提升AI认知推理与抗幻觉能力

当前大语言模型（LLMs）在生成流畅文本方面表现出色，但在系统性推理上仍存在明显短板——它们常常“自信地”编造缺乏依据的断言，这种现象被称为“幻觉”。例如，苹果机器学习研究团队发现，当在数学问题中添加无关上下文时，LLMs 的性能会骤降 65%，这暴露了模型表面推理之下脆弱的模式匹配本质。这种认知鸿沟，即无法将主张建立在可追溯的证据之上，严重限制了 AI 在需要严谨论证的领域（如科学、法律、医疗诊断）的可靠性。

Pramana 项目 正是为了弥合这一鸿沟而生。它提出了一种新颖的方法：通过基于 正理派（Navya-Nyaya） 逻辑框架对 LLMs 进行微调，来教授模型明确的认知论方法。正理派是源自印度、拥有约 2500 年 历史的严密推理体系。与通用的思维链（Chain-of-Thought）提示不同，Pramana 将正理派的 六阶段结构化推理流程 整合到模型训练中：

SAMSHAYA（疑情分析）：明确问题中的不确定性或疑问。
PRAMANA（量源识别）：识别并确立知识的有效来源（如感知、推理、类比）。
PANCHA AVAYAVA（五支论式）：执行包含普遍规则的五段式演绎推理。
TARKA（归谬验证）：通过反事实推理进行验证。
HETVABHASA（谬误检测）：识别并排除推理过程中的逻辑谬误。
NIRNAYA（决断区分）：最终确定结论，明确区分“知识”与“假设”。

这种将逻辑学与认知论相结合的方式，为模型提供了标准推理方法中普遍缺失的 认知脚手架。

实验设计与关键发现

研究团队在 55 个 基于正理派结构构建的逻辑问题上（包括约束满足、布尔可满足性问题、多步演绎等）对 Llama 3.2-3B 和 DeepSeek-R1-Distill-Llama-8B 模型进行了微调。实验分为多个阶段，其中一个关键发现是：

第一阶段微调后，模型在保留评估集上实现了 100% 的语义正确率。值得注意的是，尽管模型对正理派严格格式的遵循率仅为 40%，但这表明模型已经内化了推理的实质内容，而不仅仅是机械地模仿结构。这揭示了 内容理解优先于形式合规 的学习路径。

此外，消融研究显示，格式提示（format prompting） 和 温度参数（temperature） 对性能有至关重要的影响，且不同推理阶段的最优配置各不相同。这强调了在复杂推理任务中精细调参的重要性。

行业意义与开源贡献

Pramana 的研究为 AI 推理领域开辟了一条新路径。它不仅仅是引入了一个古老的逻辑工具，更是展示了如何将 形式化、结构化的认知框架 深度整合到现代神经网络的训练中，以弥补其内在的“黑箱”缺陷。这种方法有望提升 AI 在需要高可靠性和可解释性场景（如自动定理证明、复杂决策支持、教育辅导）中的表现。

为推动相关研究，团队已将所有 模型、数据集及训练基础设施 在 Hugging Face 平台上开源。这为全球 AI 社区进一步探索基于认知框架的 AI 推理提供了宝贵的资源。

小结：Pramana 项目通过融合东方古典逻辑智慧与现代深度学习技术，为解决大语言模型的“幻觉”与脆弱推理问题提供了一种有前景的解决方案。其核心价值在于为模型注入了系统性的 证据追溯与逻辑验证能力，这可能是迈向更可靠、更可信 AI 的关键一步。

Pramana：通过正理派逻辑微调大语言模型，提升认知推理能力

实验设计与关键发现

行业意义与开源贡献

延伸阅读

相关资讯