SheepNav
OpenInterpretability

OpenInterpretability

producthunt.com

开源审计工具,揭秘LLM内部知识

20天前制作者:Caio Vicentino

关于 OpenInterpretability

OpenInterpretability 是首个通过 MCP 协议在 Claude Code、Cursor 和 Cline 内部运行的机械可解释性工具包。它提供生产级探针(如 FabricationGuard、agent-probe-guard),能够有效检测幻觉和智能体故障。此外,项目还包含 ProbeBench 排行榜,以及从 30 分钟免费 Colab 到论文级别的 SAE 训练支持。所有代码均采用 Apache-2.0 许可证开源。

核心功能

OpenInterpretability 的核心在于将机械可解释性(Mech Interp)直接集成到开发工作流中。通过 MCP 协议,开发者可以在常用的 AI 编程助手(如 Claude Code、Cursor、Cline)内部实时审计 LLM 的行为,无需切换工具或环境。

主要特性

  • 生产级探针:内置 FabricationGuard 和 agent-probe-guard,专门用于捕获模型幻觉和智能体故障,提升 AI 应用的可靠性。
  • ProbeBench 排行榜:提供标准化的探针性能基准,帮助用户比较和选择最适合的探测方案。
  • 灵活的 SAE 训练:从 30 分钟免费 Colab 教程到论文级训练配置,满足不同层次的研究和开发需求。
  • 无缝集成:通过 MCP 协议与主流 AI 编程工具深度整合,实现即插即用的审计能力。
  • 完全开源:采用 Apache-2.0 许可证,鼓励社区贡献和二次开发。

适用场景

  • AI 应用开发:在开发过程中实时检测模型输出中的幻觉和逻辑错误,确保生成内容准确可靠。
  • 智能体系统:审计多步骤智能体的决策过程,识别潜在故障点,提升系统鲁棒性。
  • 可解释性研究:利用 SAE 训练和探针分析,深入理解 LLM 的内部表征和知识结构。

相关工具