
英国政府AI安全研究所测试Mythos AI:首个完成复杂多步网络渗透挑战的模型
英国政府AI安全研究所(AISI)近日发布了针对Anthropic Mythos Preview模型的初步评估报告,为这家AI公司声称的“在计算机安全任务上能力突出”提供了独立的公开验证。
测试背景与模型发布
上周,Anthropic宣布将其Mythos Preview模型的初始发布限制在“一小批关键行业合作伙伴”中,以便给他们时间准备应对一个“在计算机安全任务上能力突出”的模型。AISI的评估旨在独立验证这些说法。
单任务能力:与其他前沿模型相当
AISI的测试结果显示,在单个网络安全相关任务的测试中,Mythos与近期其他前沿模型(如GPT-5.4、Anthropic自家的Opus 4.6和Codex 5.3)相比,并没有显著差异。这些模型在AISI设计的多个难度级别的“夺旗”(CTF)挑战中,准确率相差在5%到10%之间。
具体到CTF测试,自2023年初GPT-3.5 Turbo在AISI的“学徒”级任务中表现挣扎以来,后续模型的性能稳步提升。如今,Mythos Preview能够完成超过85%的相同学徒级CTF任务,这虽然是AISI CTF测试的一个技术高点,但近期竞品模型也达到了可比水平。
关键突破:多步骤攻击链能力
Mythos的真正亮点在于其执行复杂、多步骤网络攻击链的能力。AISI设置了一个名为“最后防线”(The Last Ones, TLO)的测试场景,模拟对一个企业网络进行32步的数据提取攻击。
这个测试需要“跨多个主机和网段将数十个步骤串联起来”,旨在模拟一种持续操作,AISI估计训练有素的人类完成此类操作大约需要20小时。
在TLO测试中,Mythos超越了所有之前的模型,成为首个从头到尾解决TLO测试的AI模型。尽管Anthropic的新模型在10次尝试中只成功了3次,但即使是平均运行,Mythos Preview也能完成32个必要渗透步骤中的22步。
行业意义与潜在风险
这一发现解释了为何Anthropic对Mythos Preview采取限制性发布策略。如果AI模型能够自主或辅助执行复杂的、多步骤的网络入侵,其潜在风险将远超仅能完成孤立任务的模型。
AISI的评估为AI安全领域提供了一个重要的基准:评估AI的网络安全威胁能力,不能只看单点任务,更要考察其规划、协调和执行复杂攻击序列的能力。Mythos在TLO测试中的表现,标志着AI在自动化高级持续性威胁(APT)类攻击方面迈出了实质性的一步。
小结
英国AISI的独立测试证实,Anthropic的Mythos AI在串联多个步骤执行复杂网络渗透方面具有独特优势,这既是AI能力的一次突破,也敲响了AI可能被用于高级网络攻击的警钟。未来,对这类“多步推理”和“规划能力”的评估,或将成为衡量AI模型安全风险的关键维度。
