这家初创公司的新工具让你像调试软件一样调试大模型
大模型虽然能力惊人,但其内部运作机制长期以来如同“黑箱”,开发者往往只能通过调整输入数据或超参数来间接影响模型行为,过程充满试错。如今,旧金山初创公司 Goodfire 推出了一款名为 Silico 的新工具,旨在改变这一现状。该工具允许研究人员和工程师在训练过程中直接“窥视”AI模型内部,并调整其参数——这些参数决定了模型的行为。Goodfire声称,Silico是首个能够帮助开发者在从构建数据集到训练模型的整个开发流程中进行调试的现成工具。
从“炼金术”到“精密工程”
Goodfire的CEO Eric Ho 在接受《麻省理工科技评论》独家专访时表示:“我们看到模型被理解的程度与其被广泛部署的程度之间存在日益扩大的差距。目前主流前沿实验室的主导思想是:只要扩大规模、增加算力和数据,就能实现通用人工智能,其他都不重要。但我们认为,还有更好的方法。” Goodfire的目标是让构建AI模型更像一门科学,而非炼金术。
Goodfire是少数几家致力于 机械可解释性 技术的公司之一,该领域的其他领军者还包括Anthropic、OpenAI和Google DeepMind。机械可解释性旨在通过绘制模型内部的神经元及其连接路径,来理解模型在执行任务时的内部运作。值得一提的是,《麻省理工科技评论》将机械可解释性评选为 2026年十大突破性技术 之一。
Silico:将内部技术产品化
Goodfire此前已利用其技术成功调整了LLM的行为,例如 减少模型产生幻觉的次数。现在,他们将这些内部技术打包成产品Silico,向更广泛的开发者开放。Silico利用 智能体 来自动化大部分复杂的可解释性工作。Ho解释道:“智能体现在已经足够强大,可以执行我们之前手动完成的许多可解释性任务。”
行业意义与挑战
长期以来,AI模型的开发高度依赖经验和直觉,尤其是在处理数十亿参数的模型时,定位并修复特定问题(如偏见、事实错误或安全漏洞)非常困难。Silico这类工具的出现,有望将模型开发从“黑盒”调试转向更可控的“白盒”优化,让开发者能够精确地找到问题神经元或回路,并进行针对性调整。这不仅能提高开发效率,也可能为AI安全领域带来重要突破——通过直接干预模型内部机制来防止有害输出。
然而,机械可解释性仍处于早期阶段。对于超大规模模型,完全映射其神经元连接的计算成本极高。Goodfire的Silico能否在实用性和可扩展性上取得突破,将是其成功的关键。但无论如何,它代表了一种重要的趋势:我们不再满足于仅仅“使用”AI,而是开始追求“理解”和“控制”AI。

