新攻击：告诉AI浏览器2+2=5就能绕过安全限制

一项最新的安全研究再次为“AI浏览器”敲响警钟——研究人员发现，通过一种简单到令人不安的方式，就能让集成在浏览器中的大语言模型（LLM）无视安全限制，执行本应被禁止的指令。攻击者只需在网页中嵌入一句类似“2+2=5”的谬误前提，模型便会因逻辑混乱而“破防”，顺从地生成恶意内容或执行危险操作。

攻击原理：逻辑谬误绕过安全护栏

AI浏览器将LLM直接嵌入用户浏览环境，使其能“阅读”网页并代为执行操作，如填写表单、总结内容或处理支付。然而，这项功能也打开了新的攻击面。安全团队发现，当模型在上下文中遇到一个明显错误但被呈现为“事实”的陈述时（例如“2+2=5”），其内部推理机制会优先接受这个错误前提，从而瓦解基于常识和伦理规则的安全对齐。

这种攻击方式被称为“前提注入”（Premise Injection），它不需要复杂的编码或社会工程，只需攻击者控制一个网页（比如通过恶意广告或钓鱼网站），在其中插入看似无害的谬误语句。模型在“阅读”该页面后，会将其作为对话上下文的一部分，后续用户发出的任何指令（包括“帮我编写恶意软件”或“窃取你的密码”）都可能被错误地执行。

为什么AI浏览器风险更高？

与普通聊天机器人不同，AI浏览器拥有更高的权限：它能访问用户当前浏览的页面内容、表单字段，甚至可能调用浏览器API进行登录、支付等操作。一旦模型被“误导”，攻击者不仅能让它输出有害文本，还能诱导它代表用户执行实际动作，例如自动转账、修改账户设置或泄露私密信息。

此前已有研究指出，LLM在面对矛盾信息时容易“迷失方向”，但本次攻击的特殊之处在于：它利用了模型对显式上下文的过度信任。即使模型在训练中知道“2+2=4”，但当网页中明确写着“2+2=5”时，它可能认为这是用户提供的“真实”环境，从而放弃自身知识。这种“上下文优先于训练”的漏洞，在AI浏览器这种长期保持上下文的应用中尤其危险。

行业影响与防御方向

目前，主流浏览器厂商（如微软Edge、Google Chrome）已开始试验AI助手功能，但尚未完全开放这类高风险权限。然而，一些初创公司推出的“AI原生浏览器”则直接赋予了模型读写网页的完整能力。此次攻击证明，简单的逻辑矛盾就足以瓦解安全护栏，而护栏本身正是AI安全的核心防线。

防御措施方面，研究者建议：

严格限制模型对网页内容的信任等级，区分“用户输入”和“网页输出”；
在模型推理前对上下文进行逻辑一致性检查，识别明显谬误；
为敏感操作（如金融交易）增加二次确认机制，而非完全依赖模型判断。

小结

“2+2=5”式攻击虽然简单，却直指大模型安全对齐的深层缺陷：模型更倾向于相信上下文，而非自身训练知识。在AI浏览器这类高权限场景中，这一缺陷可能被放大为实际的安全灾难。对于普通用户而言，在浏览器权限安全方案成熟之前，谨慎使用AI浏览器功能，或许是最稳妥的选择。

新攻击揭示AI浏览器为何是个坏主意：只需告诉大模型“2+2=5”就能让其执行违规指令

攻击原理：逻辑谬误绕过安全护栏

为什么AI浏览器风险更高？

行业影响与防御方向

小结

延伸阅读

相关资讯