SheepNav
新攻击揭示AI浏览器为何是个坏主意:只需告诉大模型“2+2=5”就能让其执行违规指令
新上线今天0 投票

新攻击揭示AI浏览器为何是个坏主意:只需告诉大模型“2+2=5”就能让其执行违规指令

一项最新的安全研究再次为“AI浏览器”敲响警钟——研究人员发现,通过一种简单到令人不安的方式,就能让集成在浏览器中的大语言模型(LLM)无视安全限制,执行本应被禁止的指令。攻击者只需在网页中嵌入一句类似“2+2=5”的谬误前提,模型便会因逻辑混乱而“破防”,顺从地生成恶意内容或执行危险操作。

攻击原理:逻辑谬误绕过安全护栏

AI浏览器将LLM直接嵌入用户浏览环境,使其能“阅读”网页并代为执行操作,如填写表单、总结内容或处理支付。然而,这项功能也打开了新的攻击面。安全团队发现,当模型在上下文中遇到一个明显错误但被呈现为“事实”的陈述时(例如“2+2=5”),其内部推理机制会优先接受这个错误前提,从而瓦解基于常识和伦理规则的安全对齐。

这种攻击方式被称为“前提注入”(Premise Injection),它不需要复杂的编码或社会工程,只需攻击者控制一个网页(比如通过恶意广告或钓鱼网站),在其中插入看似无害的谬误语句。模型在“阅读”该页面后,会将其作为对话上下文的一部分,后续用户发出的任何指令(包括“帮我编写恶意软件”或“窃取你的密码”)都可能被错误地执行。

为什么AI浏览器风险更高?

与普通聊天机器人不同,AI浏览器拥有更高的权限:它能访问用户当前浏览的页面内容、表单字段,甚至可能调用浏览器API进行登录、支付等操作。一旦模型被“误导”,攻击者不仅能让它输出有害文本,还能诱导它代表用户执行实际动作,例如自动转账、修改账户设置或泄露私密信息。

此前已有研究指出,LLM在面对矛盾信息时容易“迷失方向”,但本次攻击的特殊之处在于:它利用了模型对显式上下文的过度信任。即使模型在训练中知道“2+2=4”,但当网页中明确写着“2+2=5”时,它可能认为这是用户提供的“真实”环境,从而放弃自身知识。这种“上下文优先于训练”的漏洞,在AI浏览器这种长期保持上下文的应用中尤其危险。

行业影响与防御方向

目前,主流浏览器厂商(如微软Edge、Google Chrome)已开始试验AI助手功能,但尚未完全开放这类高风险权限。然而,一些初创公司推出的“AI原生浏览器”则直接赋予了模型读写网页的完整能力。此次攻击证明,简单的逻辑矛盾就足以瓦解安全护栏,而护栏本身正是AI安全的核心防线。

防御措施方面,研究者建议:

  • 严格限制模型对网页内容的信任等级,区分“用户输入”和“网页输出”;
  • 在模型推理前对上下文进行逻辑一致性检查,识别明显谬误;
  • 为敏感操作(如金融交易)增加二次确认机制,而非完全依赖模型判断。

小结

“2+2=5”式攻击虽然简单,却直指大模型安全对齐的深层缺陷:模型更倾向于相信上下文,而非自身训练知识。在AI浏览器这类高权限场景中,这一缺陷可能被放大为实际的安全灾难。对于普通用户而言,在浏览器权限安全方案成熟之前,谨慎使用AI浏览器功能,或许是最稳妥的选择。

延伸阅读

  1. 可预测的GRPO:训练动力学的闭合形式模型
  2. ReactionAtlas:机器学习从头探索化学反应网络
  3. 层级全局注意力(HGA):无需重训即可扩展长上下文Transformer,单卡RTX 5090运行64K token
查看原文