
新上线今天0 投票
GPT-5.5 在新网络安全测试中匹敌备受炒作的 Mythos Preview
上个月,Anthropic 高调宣称其 Mythos Preview 模型构成了“超常”的网络安全威胁,并因此将初始发布限制在“关键行业合作伙伴”。但英国 AI 安全研究所(AISI)的最新研究显示,上周公开发布的 OpenAI GPT-5.5 在网络安全评估中达到了与 Mythos Preview 相似的水平。
AISI 自 2023 年起通过 95 个不同的夺旗挑战(涵盖逆向工程、Web 漏洞利用、密码学等任务)测试前沿 AI 模型的网络能力。在最高级别的“专家”任务中,GPT-5.5 平均通过率为 71.4%,略高于 Mythos Preview 的 68.6%(但在误差范围内)。在一个涉及构建反汇编器解码 Rust 二进制文件的特别困难任务中,AISI 指出 GPT-5.5 在 10 分 22 秒 内以 1.73 美元 的 API 调用成本无人工辅助解决了挑战。
GPT-5.5 在 AISI 的“最后挑战”(TLO)测试中也与 Mythos Preview 匹敌——该测试模拟对企业网络的 32 步数据提取攻击。GPT-5.5 在 10 次尝试中成功 3 次,而 Mythos Preview 为 2 次——此前没有模型成功过。但在更难的“冷却塔”模拟(试图破坏电厂控制软件)中,GPT-5.5 仍如之前所有模型一样失败。
AISI 认为,这些结果暗示 Mythos Preview 的网络安全风险并非“某个模型的突破性进展”,而是“长程自主性、推理和编码能力普遍提升的副产品”。OpenAI CEO Sam Altman 在近期采访中批评这种通过限制发布来营销的做法为“恐惧导向的营销”,并称“显然,说‘我们造了炸弹,即将砸你头上,卖你 1 亿美元的防弹屋’是绝妙的营销”。
