OpenAI 推出了一种新型图像水印技术,旨在应对日益泛滥的AI生成伪造内容。与传统的元数据水印不同——后者常被轻易移除——新方法将水印直接嵌入图像的像素数据中,使得即使截图、压缩或裁剪后,水印依然可被检测。 这一技术被称为“隐形水印”或“像素级水印”,它通过算法在生成图片时对像素进行微调,这些调整对人眼不可见,但能被专用的检测工具识别。OpenAI 表示,该水印能抵抗常见的编辑操作,如调整亮度、对比度、旋转或添加滤镜。 **为何重要?** 随着 DALL·E 3 等图像生成模型的普及,AI生成的逼真图像在社交媒体上被滥用,用于传播虚假信息或冒充真实人物。传统元数据(如 EXIF 标签)容易被去除,而新水印从源头嵌入图像底层,大大提高了追溯难度。 目前,该技术已应用于 OpenAI 的 ChatGPT Plus 和 Enterprise 用户生成的图像。未来,OpenAI 计划将其扩展到其他生成产品,并开源检测工具,以鼓励第三方平台采用。 **潜在局限**:尽管像素级水印比元数据更鲁棒,但极端操作(如大幅改变尺寸或添加随机噪声)仍可能破坏检测。OpenAI 正与学术界合作,持续改进水印的耐用性。
在过去的 25 年里,Google 搜索框一直是计算领域最具标志性的界面之一:一个细长的白色矩形、闪烁的光标、几个单词,然后是一串蓝色链接。然而,在今年的 Google I/O 开发者大会上,Google 正式宣告这一范式的终结。公司对搜索框进行了彻底重新设计,将其从一个简单的关键词输入框,转变为一个动态的、由 AI 驱动的对话启动器,能够接受文本、图像、PDF、视频甚至 Chrome 浏览器标签页作为输入。 ## 搜索框进化:从“填空”到“对话” Google 搜索与 AI 副总裁 Liz Reid 在周一的媒体简报会上称,这是“自 25 年前搜索框诞生以来最大的一次升级”。新搜索框不再是一个狭窄的输入栏,而是**动态扩展**,以容纳更长、更口语化的查询。旧界面通过限制宽度,无形中鼓励用户使用两三个关键词的短查询;新设计则邀请用户详细阐述复杂问题。 更关键的是,**多模态输入**现在直接集成到主搜索框中。用户可以上传图片、PDF、文件、视频,或从 Chrome 标签页拖拽内容——此前这些功能需要额外步骤进入 AI 模式才能使用,如今它们就在搜索的起点。此外,Google 还部署了一个 AI 驱动的查询建议系统,它“超越了自动补全”,能根据上下文主动引导用户提出更好的问题。 ## AI Overviews 与 AI Mode 合二为一 Google 同时将 AI Overviews 和 AI Mode 合并为一个无缝的搜索流程。过去,用户需要在传统搜索结果页和 AI 体验之间做出选择,这种摩擦如今被消除。新搜索框将根据查询意图自动决定是展示传统链接、AI 摘要还是进入深度对话模式。这意味着,对于简单的事实性问题,用户仍能快速获得答案;而对于研究、比较或创意任务,系统会平滑过渡到 AI 驱动的交互中。 ## 为什么这次改变比看起来更重要 搜索框是 Google 产品生态的核心入口,也是 Alphabet 绝大多数收入来源的起点。此次改版释放了一个明确信号:**Google 不再将搜索视为“关键词匹配”,而是视为“AI 对话”**。用户不必再学习如何提炼关键词,而是可以用自然语言描述需求,甚至附带文件或截图。 对行业而言,这意味着搜索引擎的竞争维度正在改变。传统 SEO 策略可能面临重构,因为 AI 系统不再仅仅依赖关键词权重,而是理解上下文意图。同时,多模态能力的整合也让搜索边界大幅扩展——用户可以直接问“这张照片里的植物是什么品种?”或“这份 PDF 的第三页数据有什么趋势?”,而无需先进行文字描述。 当然,挑战依然存在。AI 生成答案的准确性、对长尾查询的处理能力、以及如何平衡广告收入与用户体验,都是 Google 需要持续解决的问题。但至少从设计理念上看,这次搜索框的变革标志着搜索从“工具”向“助手”的转型迈出了实质性一步。
谷歌于 I/O 开发者大会上宣布对其 AI 创作工具 Flow 进行重大升级,其中最引人注目的新功能是“虚拟化身”(avatars)。该功能允许用户创建自己的数字克隆,并将其无缝插入 AI 生成的视频片段中。这一更新由全新的 Omni Flash 视频生成模型驱动,旨在为创作者提供更便捷、更一致的自我融入内容的方式。 ## 从“深度伪造”到创作工具 谷歌实验室产品管理副总裁 Elias Roman 在演示中展示了自己如何通过扫描创建数字分身,随后利用 Omni Flash 模型将“自己”放入任意 AI 视频场景中。Roman 表示:“这面向那些想将自己融入内容,但又不想实际拍摄自己的创作者。”这一功能与 OpenAI 已下架的 Sora 应用中的“自拍深度伪造”功能类似,但谷歌称之为“虚拟化身”,并强调其面向社交优先的创作场景。虚拟化身功能也将通过 Gemini 应用和 YouTube 提供。 ## Omni Flash:更丰富的细节与一致性 Flow 本次升级的核心是新的视频生成模型 **Omni Flash**,它接替了之前的 Veo 模型。类似谷歌此前通过 Nano Banana 模型增强图像生成对世界的理解,Omni Flash 在视频生成中带来了更丰富的细节。一个关键改进是角色一致性:过去版本中,AI 生成的角色在连续视频生成中容易出现变形,而 Omni Flash 大幅提升了稳定性,使角色在多个场景中保持外观一致。 ## 面向下一代创作者的 AI 工作流 Roman 指出,谷歌此前从未为创意工作推出过专门产品线(生产力、开发者工具、视频消费是传统强项),Flow 是谷歌为新一代创作者构建工具的尝试。除了虚拟化身,Flow 还引入了多项 AI 代理(agent)和“氛围编码”(vibe coding)功能:用户可设置自定义指令以重复生成特定风格的视频,并创建自动工作流,将相似剪辑自动归类到文件夹中。这些变化与谷歌 I/O 上关于 AI 代理和自然语言编程的宏观战略一脉相承,旨在让 AI 创作工具更加普及。 ## 行业背景与影响 谷歌此举标志着科技巨头在 AI 视频生成领域的竞争进一步白热化。此前 OpenAI 的 Sora 曾引发对“深度伪造”的讨论,但谷歌选择将类似技术包装为“虚拟化身”,并强调其作为创意工具的正面价值。通过将数字分身与 AI 视频生成结合,谷歌降低了内容创作的门槛,但同时也引发了关于身份安全、伦理滥用等潜在问题的思考。对于普通用户而言,这意味着未来生成包含自己形象的 AI 视频将像输入一段文字描述一样简单。
Google 宣布对其 AI Studio 平台进行重大升级,即日起用户可以通过自然语言提示词直接构建原生 Android 应用。该功能允许开发者在浏览器中通过嵌入式 Android 模拟器预览应用,并可将应用安装到实体设备上测试。未来还将支持通过 AI Studio 邀请应用测试人员。 不过,Google 谨慎表示,这一初始版本主要面向“个人实用”类应用,如习惯追踪器、学习测验等,以及硬件相关(如调用摄像头或 GPS)和基于 Gemini API 的 AI 体验类应用。如果你想将应用发布到 Google Play,仍需遵守其严格的审核标准。Google 强调,AI Studio 只是降低了创建高质量应用的门槛,并不会改变应用质量要求。 此外,Google 在 I/O 大会上还发布了 Android 应用构建的 CLI 工具 1.0 版本,计划在 Google Play 中推出名为“Play Shorts”的短视频应用推荐功能,并将把应用和影视内容以推荐形式整合到 Gemini 查询结果中。
在刚刚结束的 Google I/O 2026 上,谷歌发布了其 AI 购物工具的终极形态——**「通用购物车」(Universal Cart)**。该功能横跨不同零售商与谷歌自家产品(如 Gemini、YouTube、Gmail),允许用户在搜索和与 Gemini 聊天时随时将商品加入同一购物车,并通过谷歌统一结账。 谷歌广告与商务副总裁 Vidhya Srinivasan 在独家简报中表示,用户“常常开着几十个标签页、在不同设备间同步”,而通用购物车的目标就是把这一切整合起来。除了基本的跨平台添加商品外,购物车还将自动追踪价格变化、提供库存提醒、推荐折扣,并警示潜在的购买问题(如尺码不合、配送冲突等)。 这一动作发生在部分竞争对手开始收缩 AI 购物布局的背景下。去年 11 月,谷歌已推出 AI 语音代理替用户致电实体店询问库存,以及半自动在线下单功能。如今通用购物车进一步将 AI 购物推向“全托管”模式——用户只需给出指令,机器人即可完成比价、下单、支付全流程。 然而,让机器人“花钱”也引发了关于隐私、信任与消费自主权的讨论。谷歌强调购物车仅限于谷歌生态内使用,但如何确保 AI 不会过度推荐或诱导消费,仍是悬而未决的问题。对于普通用户而言,这种“一键托管”的购物体验究竟是解放双手,还是交出钱包的钥匙,或许只有时间能给出答案。
在 2026 年 Google I/O 大会上,谷歌宣布了搜索引擎史上最大规模的更新,核心是让 AI 更深度地融入搜索流程。全新的搜索框不再只是输入关键词的入口,而是成为连接 **AI 概览(AI Overviews)** 与 **AI 模式(AI Mode)** 的智能枢纽。 ### 从搜索框到 AI 入口 新版搜索框支持更长的自然语言查询,并引入 **AI 自动补全** 功能,能根据用户意图实时扩展问题。当用户提出自然语言问题时,**AI 概览** 会“可靠地”出现在结果顶部。更重要的是,用户可以在 AI 概览中直接追问,系统会自动将对话流转至 **AI 模式**——一种类似聊天机器人的搜索体验。用户也可以主动将文档、照片、视频甚至 Chrome 标签页附加到搜索框,直接进入 AI 模式进行多模态查询。 谷歌搜索副总裁 Liz Reid 在简报中强调,团队致力于消除 AI 概览与 AI 模式之间的“摩擦”,让用户无需思考该去哪里,只需使用熟悉的搜索框,就能获得最佳体验。这一更新已于 5 月 19 日面向全球桌面和移动端用户推送。如果用户仍偏好传统结果,可通过“网页”标签切换。 ### AI 代理:搜索从“被动响应”到“主动服务” 更值得关注的是谷歌推出的 **AI 信息代理** 功能。今年夏天,**AI Pro** 和 **AI Ultra** 订阅用户将能使用可自主监测话题的 AI 代理。例如,用户可以让代理在后台持续追踪某乐队巡演信息,即使离线也能收到更新通知。 这标志着搜索从“用户提问-系统回答”的单次交互,转向 **持续、主动的信息服务**。正如谷歌搜索产品副总裁 Robby Stein 所言,AI 代理“在你睡觉时也在研究、寻找信息”。 ### 行业影响与展望 此次更新基于全新的 **Gemini 3.5 Flash 模型**,在响应速度和推理能力上均有提升。结合去年推出的 AI 概览,谷歌正在构建一个分层搜索体系:简单问题由 AI 概览快速回答;复杂、多轮查询由 AI 模式深入处理;长期信息需求则由 AI 代理在后台持续服务。 这一变革直接挑战了传统搜索引擎的范式,也进一步模糊了搜索与 AI 助手之间的界限。对于用户而言,搜索不再是一个动作,而是一种持续、智能的服务体验。
Google 在 2026 年 I/O 大会上宣布为 Gmail 推出名为 **Gmail Live** 的 AI 语音模式。该功能将 Gemini Live 的对话能力与邮箱深度整合,用户只需点击搜索栏中的图标即可用语音提问。 在演示中,Google 员工通过语音询问孩子学校的活动安排和底特律旅行详情,Gmail Live 便从收件箱中提取出具体日期、地点等信息并直接展示。这一功能旨在解决传统邮件搜索中“翻找大量邮件才能找到关键细节”的痛点。 然而,准确性是核心挑战。Gmail 产品副总裁 Blake Barnes 强调,信任是 Gmail 的基石,团队在每一步都致力于确保用户能信赖该产品。为此,Gmail Live 会显示信息来源,允许用户核实结果。 此外,Google 还将类似语音 AI 能力引入 Docs 和 Keep。在 Docs Live 中,用户可与 Gemini 语音讨论并协助组织文档;在 Keep 中,语音输入可快速创建笔记。 **行业背景**:Gmail Live 的推出标志着 AI 语音助手从通用对话向垂直场景的深化。与 Siri 或 Alexa 不同,Gmail Live 专注于邮箱这一高价值数据源,通过“对话式搜索”降低信息获取门槛。如果准确性得以保证,该功能可能重塑用户处理邮件的方式——从被动阅读转向主动语音查询。
Google 在 2026 年 I/O 大会上正式发布了 **Gemini Spark**,这是其对标年初引发轰动的 AI 智能体平台 **OpenClaw** 的自主产品。Gemini Spark 是一款始终在线的 AI 智能体,能够为用户撰写邮件、创建持续更新的学习指南、监控信用卡账单中的隐藏订阅费用等。 ## 核心能力与架构 Gemini Spark 由最新推出的 **Gemini 3.5 Flash** 模型驱动,利用 Google Cloud 上的虚拟机实现 **7×24 小时后台运行**。它深度集成 Workspace 应用(如 Gmail、Docs、Sheets、Slides),并通过 **模型上下文协议 (MCP)** 扩展至第三方服务,包括 Canva、OpenTable 和 Instacart。MCP 是一种开放标准,允许 AI 模型接入外部系统或数据源。 ## 本地与跨平台交互 今年夏天,Google 将允许 Spark 通过 macOS 上的 Gemini 应用与本地文件交互。用户关闭笔记本电脑或手机后,Spark 仍可继续在后台工作。Google Labs、Gemini 及 AI Studio 副总裁 Josh Woodward 在简报中描述:“使用它时,你几乎感觉像是把任务抛过肩膀,Spark 会接住并完成。” ## 通信与权限控制 Google 计划让用户直接通过短信或邮件与 Spark 沟通,类似 OpenClaw 用户与个人智能体聊天的方式。Spark 还将连接 Chrome 浏览器,并在名为“Android Halo”的新 UI 空间显示实时更新。 Spark 将“在用户指导下”运行,用户可以控制其连接对象和开启时机。系统在执行“高风险操作”(如支付或发送邮件)前会请求用户许可。 ## 行业背景与意义 OpenClaw 今年初在科技界引发轰动,推动了 AI 智能体平台的竞争。Google 此时推出 Gemini Spark,旨在巩固其在 AI 领域的地位,并借助自身云服务和应用生态优势提供差异化体验。Spark 的“始终在线”特性与 MCP 开放协议,可能加速 AI 智能体从实验性工具向日常生产力助手的转变。 Gemini Spark 目前正面向“受信任的测试者”逐步推出,正式上线时间尚未公布。
谷歌正在将其AI能力更深地植入Gmail。在近日的Google I/O大会上,这家科技巨头正式宣布推出**Gmail Live**——一项由Gemini驱动的会话式AI功能,让用户可以用自然语言语音提问,快速从海量收件箱中找到所需信息。 ## 从关键词搜索到自然对话 传统上,在Gmail中查找某封特定邮件需要输入关键词或发件人地址,但当你记不清准确信息时,搜索往往令人沮丧。例如,你可能只记得“下周的牙医预约”或“Airbnb的进门密码”,却难以通过零散的关键词精准定位。Gmail Live改变了这一体验:用户可以直接用自然语言提问,比如“我孩子学校活动的详细信息是什么?”或“底特律那趟航班的座位号是多少?”,AI会理解上下文并给出答案。 ## 理解上下文与多轮对话 根据谷歌产品负责人Devanshi Bhandari的演示,Gmail Live不仅能回答单次提问,还支持**多轮对话**。例如,用户先问“关于孩子的课堂展示项目”,接着可以追问“那班级旅行呢?”——AI能理解“旅行”与“实地考察”之间的细微差别,并自动关联到同一主题的邮件。更关键的是,它可以从邮件中提取非常具体的信息,比如**酒店房间号**,甚至能推断出用户指代的人,即使未明确提及姓名。 ## 场景价值:AI落地的“甜点” 在公众对AI价值产生质疑的当下,谷歌希望用这种“解决日常痛点”的功能来证明AI的实用性。几乎每个人都经历过在收件箱里翻找某封邮件的抓狂时刻——无论是寻找航班确认号还是孩子学校的活动详情。将AI用于这种高频、低门槛的场景,比抽象的技术演示更具说服力。Gmail Live正是谷歌展示其AI技术如何转化为消费者实际收益的一个缩影。 ## 功能扩展与未来 除了Gmail,谷歌还计划将类似语音技术引入其待办事项应用。虽然目前Gmail Live仍处于早期阶段,但它的推出标志着AI与日常工具的融合正从“被动搜索”转向“主动对话”。对于拥有超过18亿用户的Gmail而言,这一功能可能成为AI普及的重要催化剂。
谷歌正在将AI编程热潮直接引入Android应用开发领域。周二,该公司宣布在其基于网络的**Google AI Studio**中新增原生Android应用创建功能,将原本需要数周设置和编码的过程缩短至几分钟。同时,谷歌表示消费者将能够通过Gemini AI在Play商店和网络上找到所需应用,为开发者拓展了应用被发现的机会。 谷歌表示,这项新功能对两类人群都很有意义:希望快速原型新应用的资深开发者,以及首次尝试创建应用的初学者。通过提供基于网页工具的“氛围编码”能力来构建Android应用,谷歌正在与Cursor、Replit、Lovable、Claude Code等AI驱动开发工具展开竞争,同时也向非技术创作者开放了Android开发的大门。此举也代表着谷歌在桌面版Android Studio中通过Gemini提供AI编码支持后的进一步扩展。 据谷歌介绍,这些应用使用**Kotlin**编程语言和**Jetpack Compose**工具包构建,并支持与GPS、蓝牙、NFC等硬件传感器集成。不过,目前生成的应用仅供个人使用,向家人和朋友发布的计划仍在路线图中。谷歌建议该技术可用于创建个人工具、简单社交应用、硬件交互体验或AI驱动体验。 当前,应用开发者可以直接在网页浏览器中使用内置的**Android模拟器**预览和交互正在构建的应用。用户还可以通过USB线连接电脑,利用集成的**Android调试桥(adb)**将应用安装到手机上。对于希望进一步推进项目的用户,AI Studio可以自动创建应用记录、打包并上传至Google Play控制台的内部测试轨道,方便开发者持续迭代和更新。希望公开发布的用户可以通过下载zip文件或直接导出到GitHub,将项目移交给Android Studio。未来,谷歌计划允许创作者将应用发布给家人和朋友,并增加对Firebase集成的支持。
在今年的 Google I/O 开发者大会上,谷歌正式发布了 **Gemini Omni**,一个全新的多模态模型家族。与以往的多模态模型不同,Omni 并非简单地将文字、图像、音频和视频拼接在一起,而是能够**跨模态推理**,理解物理、文化、历史和科学知识,生成连贯且高质量的视频内容。 ### 从“理解”到“创造” 谷歌 CEO Sundar Pichai 在发布会上表示:“当我们在三年前首次推出 Gemini 时,它就原生支持多模态。但 Omni 的目标是让 AI 从预测文本转向模拟现实。” 以 Omni Flash 为起点,用户可以通过自然对话的方式,结合图片、音频、视频和文字作为输入,让模型生成或编辑视频。例如,输入“一个关于蛋白质折叠的黏土动画讲解”,Omni 不仅会生成一段定格动画风格的视频,还会自动配上画外音,用通俗的语言解释氨基酸链如何折叠成 α 螺旋和 β 折叠。 ### 不仅仅是视频生成 虽然 Omni 的首个应用聚焦于视频,但其长期愿景更为宏大。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 透露,未来 Omni 将支持“从音频生成图像”或“从视频生成音频”等多种双向转换。谷歌已有专门的视频模型 Veo,但 DeepMind 产品管理总监 Nicole Brichtova 强调:“Omni 不是 Veo 的简单升级,而是将 Gemini 的推理能力与媒体模型的渲染能力相结合的下一步。” ### 防止滥用与安全措施 作为发布的一部分,用户还可以使用自己的数字分身创建视频(类似 OpenAI 在 Sora 中推出的 Cameo 功能)。为防止深度伪造,用户需要通过严格的身份验证流程。谷歌表示,所有由 Omni 生成的内容都将添加不可见的数字水印,并遵守现有的 AI 安全准则。 ### 行业影响 Gemini Omni 的发布标志着多模态 AI 从“理解内容”迈入“创造世界”的新阶段。过去,生成式 AI 主要依赖文本提示;如今,用户可以通过混合多种输入形式,更自然地表达创意。对于内容创作者、教育者和营销人员而言,Omni 可能大幅降低视频制作的门槛。 不过,Omni 目前仍处于早期阶段,首批功能仅支持视频生成,且仅面向部分开发者开放。谷歌计划在未来几个月内逐步扩大访问权限,并增加更多模态组合。
在谷歌 I/O 大会前夕,Google DeepMind 首席执行官 **德米斯·哈萨比斯** 接受了 WIRED 专访,对当前流行的“AI 将大规模取代程序员”论调表达了强烈不同意见。他认为,企业若因 AI 提升生产力而裁员,不仅缺乏想象力,更误解了技术本质。 ## 核心观点:效率提升应催生更多创造,而非减员 哈萨比斯直言,他对那些言之凿凿预测 AI 将导致程序员失业的言论感到困惑,并暗示背后可能有融资等“别有用心”的动机。他强调,从 DeepMind 和谷歌的角度看,如果工程师因 AI 工具而变得高效三到四倍,公司正确的做法是**承接三到四倍更多的工作**,而不是裁掉员工。 “我有上百万个想法,从实验室药物发现到游戏设计,”哈萨比斯说,“我希望能有空闲的工程师去做这些事。”他批评那些试图用 AI 替换开发者的公司是“缺乏想象力,也不理解真正会发生什么”。 ## 模型亮点:Gemini 3.5 Flash 主打代理式编程 专访的背景是谷歌在 I/O 大会上发布的一系列 AI 更新。其中,**Gemini 3.5 Flash** 模型通过名为 **Antigravity** 的编码工具,提供前沿的编码与推理能力。谷歌称其比竞品更快、更便宜。该模型专为复杂代理式编程任务训练,包括: - 将大型代码库从一种语言迁移到另一种语言 - 查找并修复深层棘手代码中的 bug - 甚至从头编写完整操作系统 此外,更强大的 **Gemini 3.5 Pro** 将于下月首次亮相。 ## 行业背景:AI 裁员潮与哈萨比斯的反向立场 当前,AI 编码能力已引发广泛焦虑,认为 AI 可能即将淘汰编程岗位。亚马逊、Salesforce、Block 等科技巨头甚至将近期裁员归因于 AI 应用。哈萨比斯的表态则与这一趋势形成鲜明反差。他认为,Alphabet 旗下拥有众多业务线,恰恰可以充分利用软件生产力革命——而不是缩减人力。 ## 小结 哈萨比斯的观点为 AI 时代的就业问题提供了一剂清醒剂:**AI 的真正价值在于赋能人类做更多、更有想象力的事,而非简单替代。** 对于开发者而言,这或许是最值得关注的信号。
在今年的 **I/O 开发者大会** 上,谷歌发布了 **Gemini Spark**,这是一款始终在线、主动收集数据的 AI 代理,旨在接管用户的日常数字事务。与需要用户主动提示的标准 Gemini 应用不同,Spark 会在用户离线时主动挖掘个人信息(如日历日程、Gmail 确认邮件),并自动执行任务——例如定期检查信用卡账单以标记意外费用、扫描关于孩子的邮件并提取关键日期生成晨间摘要、甚至根据会议笔记起草文档和跟进邮件。 这一概念并非谷歌独创。此前,Anthropic 的 **Claude Cowork** 和爆红的 **OpenClaw** 已展示了 AI 代理的潜力:Claude 能自动整理桌面截图,OpenClaw 则试图全自动化管理用户的收件箱、日历和短信,尽管也带来了数据安全风险(例如曾险些删除 Meta 员工的大量邮件)。Gemini Spark 的差异化在于其**主动性与深度整合**——它直接接入谷歌生态(如 Gmail、Calendar),无需第三方集成即可获取个人信息,并能在用户不干预的情况下持续运作。 然而,这种便利伴随着显著风险。用户必须授予 Spark 对个人数据和计算机的完全控制权,而谷歌在隐私保护方面的过往记录(如数据处理争议)可能引发担忧。此外,Spark 的定价不菲:初期仅向少量测试者开放,随后以 **每月 100 美元以上** 的 AI 订阅计划提供 beta 版本。这一定位将其限制在高端用户群体,但若成功,可能重塑人们与数字助手的交互方式——从被动问答转向主动代理。 行业观察者指出,AI 代理的竞争正从“能做什么”转向“敢让它们做什么”。谷歌凭借其庞大的用户数据池和跨服务整合能力,在技术上具备优势,但如何平衡自动化与用户信任,将是 Spark 面临的关键考验。
在2026年I/O大会上,谷歌宣布对搜索进行重大AI升级,推出全新AI搜索框、信息代理、代理编程等多项功能,标志着搜索从“找链接”向“替你做事”的智能助手转变。 ## 核心更新一览 谷歌搜索副总裁Liz Reid表示:“搜索的目标始终是帮助你提问任何问题。”但如今,搜索不仅能回答问题,还能为你研究、购物、预订、监控和创建内容。主要更新包括: - **AI模式**:由全新 **Gemini 3.5 Flash** 模型驱动,支持多轮对话、多模态理解(图像、视频)和复杂任务推理。该模型专为代理和编程优化,号称在长周期任务上表现出色。 - **信息代理**:可后台持续监控指定主题,主动推送更新。 - **代理编程**:直接在搜索框内构建小型应用,无需离开搜索界面。 - **个性化功能**:整合Google应用数据,提供更贴合个人需求的结果。 ## AI模式:更智能的对话式搜索 AI模式现已在桌面和移动端上线,底层模型Gemini 3.5 Flash被描述为“构建更强大智能代理的重大飞跃”。它能够跨来源推理、处理更长提示、理解图片和视频,并完成多步骤工作流。用户可以从AI概览无缝转入对话式交互,实现更自然的搜索体验。 ## 信息代理:后台监控,主动通知 信息代理功能允许用户设置关注话题(如特定新闻、价格变化或学术进展),代理会在后台持续监控,并在有重要更新时主动通知。这类似于一个永不休息的私人研究助理。 ## 代理编程:搜索即开发环境 代理编程是本次更新中最具突破性的功能之一。用户可以直接在搜索框中用自然语言描述需求,AI将自动生成并运行小型应用程序,无需编写代码或切换工具。例如,输入“创建一个计算器应用”即可立即使用。这大大降低了开发门槛。 ## 个性化:搜索更懂你 新的个性化功能允许搜索调用用户的Google应用数据(如日历、邮件、云端硬盘等),从而提供更精准的结果。例如,搜索“我下周的会议安排”可直接汇总日历信息。 ## 影响与展望 这些更新表明,谷歌搜索正从信息检索工具演变为主动式智能助手。AI模式和信息代理将提升信息获取效率,代理编程则可能改变轻量级应用的开发方式。然而,隐私和用户数据控制仍是关键挑战。谷歌需要确保个性化功能不会滥用用户数据。 总体来看,谷歌正在将AI深度融入搜索的每一个环节,未来的搜索将不再是简单的问答,而是一个能理解、执行甚至创造的智能平台。
在今年的 **Google I/O** 大会上,谷歌描绘了搜索的未来图景:一个由 **AI 代理**驱动、高度个性化且自动化的全新体验。谷歌搜索负责人 **Liz Reid** 表示,用户将能直接在搜索中创建、定制和管理多个 AI 代理,用于处理各种任务——例如设置一个代理来追踪股市趋势,并在条件满足时主动推送提醒。 这一转变的核心是“信息代理”概念:搜索不再只是被动应答,而是能持续为你工作,甚至在你离线时也保持活跃。例如,你可以要求 AI 模式“随时更新我喜欢的运动员发布的联名鞋款”,谷歌便会生成一个专属代理,持续监测相关信息,一旦有新品发布(如 A'ja Wilson 的粉色 Nike),就会推送通知并附带购买链接。该功能将于今年夏天首先面向 **AI Pro 和 Ultra** 订阅用户开放。 此外,谷歌还推出了 **Gemini 3.5 Flash** 作为 AI 模式回答的默认底层模型,并改进了搜索框的响应能力。这些“代理式”体验还包括预订代理等自动化功能,尽管此前类似 Duplex 的项目已停止运营,但谷歌显然在探索更深入的自动化路径。 **行业影响**:这一动向标志着搜索从“信息检索工具”向“任务执行平台”的转型。对于普通用户,这意味着更少的主动操作和更智能的预测服务;但对于依赖搜索流量的网站和广告商,用户与页面的直接交互减少可能带来挑战。同时,隐私与数据安全也成为焦点——代理需要持续访问用户数据才能发挥作用,谷歌如何在便利与信任之间平衡,将是关键考验。
Google 在 I/O 2026 大会上对其 AI 订阅计划进行了重大调整,推出了一款月费 100 美元的“AI Ultra”低价版,同时将完整版 Ultra 计划的价格从 250 美元降至 200 美元。此外,AI Pro 等计划也新增了 YouTube Premium Lite 等福利。 ## 新低价 Ultra 计划:面向开发者和创意人士 新推出的 **AI Ultra(低价版)** 月费 100 美元,主要面向开发者、技术工作者和创意专业人士。该计划包括: - 在 Gemini 应用和 AI 驱动开发工具 **Google Antigravity** 中,使用额度为 AI Pro 计划的 **5 倍** - 优先访问 Google Antigravity - 集成 **Gemini 3.5 Flash**,用于更快速的代码测试和调试 - 20TB 云存储空间 - 包含 **YouTube Premium 个人版**(无广告) ## 完整 Ultra 计划降价 原本月费 250 美元的 **完整版 AI Ultra** 计划现已降至 **200 美元**。该计划提供 Gemini 应用和 Antigravity 中 **20 倍** 的使用额度,以及其他高级功能。 ## 所有计划的新功能 Google 还推出了 **Gemini Spark**,一个可自主执行复杂任务的 AI 代理,目前仅在美国可用。该功能本周向测试者开放,下周将进入 Beta 阶段。 此外,部分 AI Pro 订阅用户将免费获得 **YouTube Premium Lite**,该服务提供无广告观看体验。 ## 如何选择? - **普通用户**:AI Pro 计划性价比高,适合日常使用。 - **开发者/创意人士**:若需更高额度与存储,100 美元的低价 Ultra 计划更划算。 - **重度用户/企业**:完整 Ultra 计划降价后吸引力大增,尤其适合需要极高使用限额的团队。 Google 此次调整意在覆盖更广泛的用户群,同时保持与 OpenAI 等对手的竞争力。
谷歌近日在 AI 开发者平台悄然更新了 Gemini 3.5 Flash 模型,这是继 Gemini 2.5 Flash 之后又一款主打“速度与效率”的轻量级模型。虽然官方尚未大规模宣传,但文档页面已明确列出该模型的关键参数与定价,引发了开发者社区的广泛关注。 ## 核心参数与定价 根据谷歌 AI 开发者文档,**Gemini 3.5 Flash** 在多项基准测试中表现出色,尤其擅长需要快速响应的任务场景。其上下文窗口提升至 **1,048,576 tokens**(约 100 万 token),足以处理长篇文档或复杂对话。输入价格为 **每百万 token 0.35 美元**,输出价格为 **每百万 token 1.05 美元**,相比前代 Gemini 2.5 Flash(输入 0.15 美元、输出 0.60 美元)有所上涨,但考虑到性能提升,性价比依然突出。 ## 性能与适用场景 Gemini 3.5 Flash 在 **MMLU**(大规模多任务语言理解)和 **HumanEval**(代码生成)等基准上均实现了显著进步。它特别适合以下场景: - **实时聊天机器人**:低延迟响应,适合客服、虚拟助手等交互式应用。 - **内容摘要与信息提取**:处理长文档时,能够快速生成结构化摘要。 - **代码辅助**:在代码补全、调试建议等任务中,准确率与速度兼备。 此外,该模型支持多模态输入(文本、图像、音频),但输出仍为文本形式,延续了 Flash 系列的“输入多模态、输出文本”特色。 ## 行业背景与竞争格局 Gemini 3.5 Flash 的推出恰逢大模型“轻量化”浪潮。OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku 等竞品同样聚焦低成本、高速度场景。谷歌此举意在巩固其在开发者生态中的地位——通过提供高性价比的 API,吸引更多中小企业和独立开发者使用 Gemini 平台。 值得注意的是,Gemini 3.5 Flash 的定价虽高于自家 2.5 Flash,但依然远低于 Gemini 1.5 Pro 等旗舰模型。这种“分层定价”策略让用户可以根据任务复杂度灵活选择:简单任务用 Flash,复杂推理用 Pro。 ## 开发者反响与未来展望 目前,Gemini 3.5 Flash 已在 Google AI Studio 和 Vertex AI 中可用。早期测试者反馈其生成速度“几乎实时”,且在数学推理和代码生成方面优于 2.5 Flash。不过,也有开发者指出,该模型在处理多轮对话时偶尔会出现“遗忘”早期上下文的问题,但整体表现符合预期。 随着谷歌计划在 2025 年推出更强大的 Gemini 3.5 Pro,Flash 版本作为“轻骑兵”的角色将更加明确——它不追求全能,而是专注于用最低成本完成 80% 的日常任务。对于预算敏感或需要高频调用的应用而言,Gemini 3.5 Flash 无疑是一个值得关注的新选项。
电子垃圾(e-waste)正成为全球增长最快的废弃物流之一。据联合国统计,2022年全球产生了约6200万吨电子垃圾,但只有不到四分之一被妥善回收。大多数电路板最终被粉碎、焚烧或填埋,不仅浪费了宝贵的稀有金属,也失去了其中的可复用元件。 一家名为 **Tuurny** 的初创公司正试图改变这一现状。他们的核心思路很简单:在电路板被送入粉碎机之前,先用机器人将仍可使用的 **RAM 内存芯片** 和其他高价值元件拆解下来。 ## 机器人拆解:精准“拆弹”而非暴力粉碎 Tuurny 的解决方案是一套配备机械臂的自动化拆解系统。机械臂通过视觉识别和机器学习算法,能够定位电路板上的 IC 芯片(如内存颗粒、处理器等),并使用热风枪或精密夹具将其安全取下。与传统回收流程中整板粉碎后再进行化学提炼不同,这种“先拆后碎”的方式可以保留元件的功能完整性,使其能够直接进入二手市场或用于维修。 对于内存芯片而言,这种拆解尤其有价值。因为许多旧设备中的 RAM 模块虽然技术规格落后,但对于工业控制、嵌入式系统或某些特定场景(如老式服务器、ATM机等)来说仍是刚需。从电子垃圾中回收的“遗产芯片”(legacy chips)可以有效缓解供应链短缺问题,同时降低对全新芯片的依赖。 ## 商业模式与经济性 Tuurny 的商业模式是向电子垃圾回收商或大型企业提供拆解服务,或直接出售回收来的二手芯片。据该公司估算,一块典型的 PC 主板上包含价值数美元的可复用芯片,而机器人拆解的成本远低于人工拆解(人工不仅慢,而且容易损坏元件)。随着全球芯片短缺的持续,二手芯片的市场需求正在上升,这为 Tuurny 提供了商业可行性。 不过,该技术目前仍面临挑战:不同品牌、不同年代的电路板布局差异巨大,机器人需要不断学习新的“拆解策略”;此外,部分芯片被胶水或封装材料固定,拆解过程中可能受损。Tuurny 表示正在通过更精细的视觉算法和柔性夹爪来提升成功率。 ## 行业背景与意义 电子垃圾回收长期以来是“粗放型”产业,主要关注贵金属(金、银、铜、钯)的提炼,而忽略了功能元件的再使用。Tuurny 的思路代表了 **“精细化回收”** 的升级方向——将电子垃圾视为一座“城市矿山”,不仅提取原材料,更直接复用其中的“半成品”。 从环保角度看,复用芯片避免了制造新芯片所需的巨大能耗和水资源消耗(制造一枚芯片的碳排放可达其重量的数百倍)。从产业安全角度看,回收遗产芯片有助于减少对特定国家或厂商的供应链依赖。 当然,Tuurny 并非唯一一家探索此方向的初创公司。例如,荷兰的 **Closing the Loop** 和美国的 **ERI** 也在尝试类似技术。但 Tuurny 的差异化在于专注于 **高精度、高价值芯片** 的拆解,而非泛泛的整机回收。 ## 小结 机器人拆解电子垃圾以回收内存芯片,听起来像是一个“古老”的创意,但直到近年 AI 视觉和柔性抓取技术的成熟,才使其具备商业可行性。Tuurny 的尝试如果成功,可能推动整个电子垃圾回收行业从“炼金术”转向“芯片再造”。对于消费者而言,这意味着未来的旧手机、旧电脑或许能“死而复生”,成为另一台设备的零件来源。
ZDNET 于 2026 年 5 月 19 日正式发布“大竞猜”比赛的官方规则。该活动由 Ziff Davis, LLC 主办,面向美国 50 州及哥伦比亚特区年满 18 周岁的合法居民。比赛时间为 2026 年 5 月 19 日东部时间中午 12:01 至 2026 年 9 月 1 日东部时间晚上 11:59。参与者无需购买即可参赛,但需通过 CNET 集团旗下网站完成三轮竞猜问题。每轮问题因站点而异,但题目可重复。每位参与者仅限一次有效提交。 ## 参赛资格与限制 比赛明确排除以下人群:在选拔日期前 9 个月内曾获得主办方任何比赛奖项者;过去 6 个月内受雇于主办方或其关联机构的人员(包括员工、顾问、独立承包商、实习生);以及上述人员的直系亲属(父母、继父母、法定监护人、子女、继子女、兄弟姐妹、继兄弟姐妹、配偶)和同住家庭成员(每年同住至少 3 个月者)。 ## 比赛流程与裁决 参赛者需在比赛期间通过指定网站提交答案。每轮问题的具体内容未在规则中详列,但暗示可能与科技趋势、产品发布或行业预测相关。所有裁决由主办方做出,且为最终决定。 ## 行业背景与意义 此类竞猜活动在科技媒体中常见,旨在提升用户参与度和社区互动。通过预测性问答,主办方不仅能收集用户兴趣数据,还能增强品牌粘性。对于 ZDNET 而言,这可能是其年度内容营销策略的一部分,利用游戏化机制吸引读者关注 AI、云计算等前沿话题。规则中的严格限制(如排除近期获奖者和雇员)体现了合规性,避免法律风险。 总体而言,该比赛规则清晰,流程简单,但核心的竞猜题目和奖品细节有待后续公布。参与者应关注 CNET 集团网站以获取最新信息。
近年来,越来越多的学校在毕业典礼上引入 AI 播报系统,用以自动念出走上台的学生姓名。这项技术本意是为了解决人工播报时可能出现的发音不准、节奏不佳等问题,但实际效果却远未达到预期。最近多场毕业典礼上,AI 播报员频频出错,要么念错名字的发音,要么直接跳过某些学生的姓名,导致现场陷入尴尬,也引发了公众对 AI 在重要仪式上可靠性的质疑。 ### 技术初衷与现实落差 毕业典礼是学生生涯的重要时刻,每位学生都希望自己的名字被准确、庄重地念出。传统上,学校会安排教师或专业播音员担任播报员,但人工播报难免因不熟悉多文化姓氏、紧张或疲劳而出现卡顿或误读。AI 播报系统正是为此而生——通过语音合成和文本转语音技术,理论上可以做到每个名字都发音清晰、节奏一致。 然而,现实却给了这项技术一记响亮的耳光。据媒体报道,在近期几所大学的毕业典礼上,AI 播报系统出现了多种故障:有的名字被错误地重读或音节拆分,有的学生名字直接被系统跳过,导致学生上台后一片寂静,只能尴尬等待。更糟糕的是,系统有时会随机插入不相关的音效或词语,进一步破坏了仪式感。 ### 技术瓶颈:多语言与个性化发音仍是难题 AI 播报的核心挑战在于名字的多样性。美国等多元文化国家的学生姓名往往来自不同语言背景,包含非英语的发音规则、声调甚至特殊字符。虽然现代语音合成模型(如 Tacotron、WaveNet)在标准英语上已接近真人水平,但对于罕见姓氏、非英语拼写或复合名字,模型仍缺乏足够的训练数据,导致发音偏差。 此外,许多 AI 系统依赖文本到语音的映射,但同一拼写在不同语言中可能有截然不同的读法。例如,“Nguyen”在越南语中发音近似“文”,而 AI 可能按英语规则读成“努根”。系统若无法识别姓名来源并调用相应发音库,就极易出错。 ### 学校与学生的反应 面对 AI 播报的失误,学校方面态度不一。部分学校表示将优化系统,增加人工审核环节;也有学校认为 AI 出错概率低于人工,仍将继续使用。但学生们显然不太买账——社交媒体上充斥着对“AI 翻车”的吐槽,有人调侃“连 AI 都读不对我的名字,看来我爸妈起名太有创意了”,更多人则表达了对重要时刻被破坏的失望。 ### 行业展望:AI 需要“人情味” 毕业典礼播报只是 AI 在仪式场景应用的一个缩影。从婚礼司仪到体育赛事解说,AI 语音正试图进入更多需要“人情味”的场合。但当前的技术水平表明,AI 在处理非标准化、高情感价值的信息时仍显笨拙。要解决这一问题,可能需要融合多模态信息(如预先录制学生自己的发音样本)、引入实时人工监督,或者干脆回归人工播报,让 AI 仅作为辅助工具。 无论如何,这次事件给 AI 行业提了个醒:技术不能只追求效率,更要尊重场景的严肃性和个体的独特性。否则,再先进的算法也可能成为尴尬的制造者。