SheepNav
新上线今天0 投票

亚马逊 Bedrock AgentCore 浏览器推出操作系统级操作:打破网页自动化边界

亚马逊云科技宣布为 AgentCore Browser 引入 操作系统级操作(OS Level Actions) 能力。这一新特性通过 InvokeBrowser API 暴露直接的操作系统控制,使 AI 代理不仅能与浏览器网页层(DOM)交互,还能操控屏幕上由操作系统渲染的界面元素——包括原生对话框、安全提示、证书选择器、右键菜单、Chrome 设置等。

传统网页自动化工具(如 Playwright、Chrome DevTools Protocol)受限于浏览器 DOM,无法触及操作系统层级的 UI。当应用调用 window.print() 弹出系统打印对话框、或遇到 macOS 隐私弹窗、Windows 安全提示时,自动化流程就会中断。对于视觉 AI 代理,问题更突出:截图能捕获原生 UI,模型也能推理出操作意图,但后续执行却无路可走。

OS Level Actions 通过组合 全桌面截图鼠标/键盘操作系统级控制,让代理在同一个会话中观察、推理并操作原生界面。该能力无需额外配置即可用于现有浏览器环境,支持鼠标点击、键盘输入、快捷键、滚动、拖放等操作。

这一更新对需要处理复杂认证流程、文件上传下载、浏览器设置变更或跨应用交互的自动化场景意义重大。它弥补了网页自动化与系统级操作之间的鸿沟,为构建更鲁棒的企业级 AI 代理铺平道路。开发者现在可以通过 Amazon Bedrock 的 AgentCore 服务体验这一能力。

延伸阅读

  1. 微软放弃 Xbox Copilot AI,新 CEO 继续大刀阔斧改革
  2. iOS 27 或将允许用户自由选择喜欢的 AI 模型
  3. 三星消息应用即将停运:两种免费方法轻松备份你的短信
查看原文