
OpenInterpretability
producthunt.com
开源审计工具,揭秘LLM内部知识
20天前制作者:Caio Vicentino
关于 OpenInterpretability
OpenInterpretability 是首个通过 MCP 协议在 Claude Code、Cursor 和 Cline 内部运行的机械可解释性工具包。它提供生产级探针(如 FabricationGuard、agent-probe-guard),能够有效检测幻觉和智能体故障。此外,项目还包含 ProbeBench 排行榜,以及从 30 分钟免费 Colab 到论文级别的 SAE 训练支持。所有代码均采用 Apache-2.0 许可证开源。
核心功能
OpenInterpretability 的核心在于将机械可解释性(Mech Interp)直接集成到开发工作流中。通过 MCP 协议,开发者可以在常用的 AI 编程助手(如 Claude Code、Cursor、Cline)内部实时审计 LLM 的行为,无需切换工具或环境。
主要特性
- 生产级探针:内置 FabricationGuard 和 agent-probe-guard,专门用于捕获模型幻觉和智能体故障,提升 AI 应用的可靠性。
- ProbeBench 排行榜:提供标准化的探针性能基准,帮助用户比较和选择最适合的探测方案。
- 灵活的 SAE 训练:从 30 分钟免费 Colab 教程到论文级训练配置,满足不同层次的研究和开发需求。
- 无缝集成:通过 MCP 协议与主流 AI 编程工具深度整合,实现即插即用的审计能力。
- 完全开源:采用 Apache-2.0 许可证,鼓励社区贡献和二次开发。
适用场景
- AI 应用开发:在开发过程中实时检测模型输出中的幻觉和逻辑错误,确保生成内容准确可靠。
- 智能体系统:审计多步骤智能体的决策过程,识别潜在故障点,提升系统鲁棒性。
- 可解释性研究:利用 SAE 训练和探针分析,深入理解 LLM 的内部表征和知识结构。