Mythos AI完成复杂网络渗透测试，AI安全风险引关注

英国政府AI安全研究所（AISI）近日发布了针对Anthropic Mythos Preview模型的初步评估报告，为这家AI公司声称的“在计算机安全任务上能力突出”提供了独立的公开验证。

测试背景与模型发布

上周，Anthropic宣布将其Mythos Preview模型的初始发布限制在“一小批关键行业合作伙伴”中，以便给他们时间准备应对一个“在计算机安全任务上能力突出”的模型。AISI的评估旨在独立验证这些说法。

单任务能力：与其他前沿模型相当

AISI的测试结果显示，在单个网络安全相关任务的测试中，Mythos与近期其他前沿模型（如GPT-5.4、Anthropic自家的Opus 4.6和Codex 5.3）相比，并没有显著差异。这些模型在AISI设计的多个难度级别的“夺旗”（CTF）挑战中，准确率相差在5%到10%之间。

具体到CTF测试，自2023年初GPT-3.5 Turbo在AISI的“学徒”级任务中表现挣扎以来，后续模型的性能稳步提升。如今，Mythos Preview能够完成超过85%的相同学徒级CTF任务，这虽然是AISI CTF测试的一个技术高点，但近期竞品模型也达到了可比水平。

关键突破：多步骤攻击链能力

Mythos的真正亮点在于其执行复杂、多步骤网络攻击链的能力。AISI设置了一个名为“最后防线”（The Last Ones, TLO）的测试场景，模拟对一个企业网络进行32步的数据提取攻击。

这个测试需要“跨多个主机和网段将数十个步骤串联起来”，旨在模拟一种持续操作，AISI估计训练有素的人类完成此类操作大约需要20小时。

在TLO测试中，Mythos超越了所有之前的模型，成为首个从头到尾解决TLO测试的AI模型。尽管Anthropic的新模型在10次尝试中只成功了3次，但即使是平均运行，Mythos Preview也能完成32个必要渗透步骤中的22步。

行业意义与潜在风险

这一发现解释了为何Anthropic对Mythos Preview采取限制性发布策略。如果AI模型能够自主或辅助执行复杂的、多步骤的网络入侵，其潜在风险将远超仅能完成孤立任务的模型。

AISI的评估为AI安全领域提供了一个重要的基准：评估AI的网络安全威胁能力，不能只看单点任务，更要考察其规划、协调和执行复杂攻击序列的能力。Mythos在TLO测试中的表现，标志着AI在自动化高级持续性威胁（APT）类攻击方面迈出了实质性的一步。

小结

英国AISI的独立测试证实，Anthropic的Mythos AI在串联多个步骤执行复杂网络渗透方面具有独特优势，这既是AI能力的一次突破，也敲响了AI可能被用于高级网络攻击的警钟。未来，对这类“多步推理”和“规划能力”的评估，或将成为衡量AI模型安全风险的关键维度。

英国政府AI安全研究所测试Mythos AI：首个完成复杂多步网络渗透挑战的模型

测试背景与模型发布

单任务能力：与其他前沿模型相当

关键突破：多步骤攻击链能力

行业意义与潜在风险

小结

延伸阅读

相关资讯