SheepNav

AI 资讯

每日聚合最新人工智能动态

在2026年Google I/O大会上,谷歌宣布重返智能眼镜赛道,推出名为“音频眼镜”的新产品。该设备与Warby Parker和Gentle Monster合作设计,并由三星参与制造,支持Android和iOS设备。用户可通过语音指令与眼镜交互,借助Gemini等谷歌生态系统完成操作,例如语音下单咖啡。谷歌此前曾推出Google Glass,但因隐私问题饱受争议。如今,智能眼镜市场已发生显著变化,Meta等巨头及众多初创公司纷纷布局。谷歌此次以音频交互为切入点,强调实用性与生态整合,试图在竞争中占据一席之地。产品预计今年晚些时候上市。

TechCrunch13天前原文
Meta员工赶在裁员前疯狂“薅羊毛”:耳机补贴、健康福利全用上

## 裁员前的“最后的狂欢” Meta 即将于本周三启动新一轮大规模裁员,约 **8000 名员工**(占员工总数约 10%)将收到离职通知。据 WIRED 报道,公司内部已弥漫着焦虑与不安,许多员工选择“摸鱼”、提前离场,甚至争分夺秒地消耗公司提供的各项福利。 ## 福利“抢购”潮 最引人注目的是,员工们正疯狂使用 **每年 2000 美元的弹性福利**,该福利可用于健康、健身等活动。同时,一项每三年发放的 **200 美元音频设备补贴** 也引发了抢购 AirPods 等耳机的热潮。一位员工形容:“办公室几乎空了,大家不是在改简历,就是在和朋友做最后的告别。” ## 矛盾的背景:盈利新高与 AI 焦虑 此次裁员发生在 Meta 利润创纪录之际,但 CEO 扎克伯格坚持认为,公司需要将资金投入 **AI 数据中心**,并相信 AI 技术能够替代部分人力,让公司以更少的员工维持同样效率。这轮裁员是自 2022 年以来 Meta 的第四轮大规模裁员,但因其发生在社会对 AI 取代工作的普遍焦虑背景下,格外引人关注。 ## 员工士气跌至谷底 除了裁员,员工还面临其他不满:部分人被强制调岗至 AI 团队、公司部署监控软件追踪员工电脑使用情况以训练 AI 模型。多位员工表示,当前士气已跌至“前所未有的低点”。

WIRED AI13天前原文
两款AI科学助手在药物重定位任务中展现潜力

本周《自然》杂志发表了两篇论文,分别介绍了两款旨在帮助科学家提出和验证假设的人工智能系统。其中,谷歌的“Co-Scientist”被设计为“科学家在环”模式,即研究人员不断用其判断来指导系统。而来自非营利组织FutureHouse的系统则更进一步,能分析特定实验类型产生的生物学数据。尽管谷歌声称其系统也适用于物理学,但两篇论文均以生物学数据为主,且假设相对直接——某种药物对某疾病有效。这并非试图取代科学家或科学过程,而是利用AI最擅长的能力:处理人类难以驾驭的海量信息。 ## 系统差异与共同目标 两套系统均属于“代理型”AI,它们在后台运行,调用外部工具来完成任务(微软的AI科学助手也采取了类似策略;OpenAI似乎是个例外,它仅针对生物学微调了大语言模型)。尽管存在差异,但它们的共同目标是应对科学信息的泛滥:在线出版使得期刊数量激增,论文数量随之膨胀,研究人员很难跟上本领域进展,更不用说跨领域发现潜在关联。 FutureHouse团队指出:“通过专注于‘组合合成’(识别不同领域间的非明显联系),Robin系统有效瞄准了人类专家因知识分割而可能忽略的‘低垂果实’。”这正是AI的用武之地——在研究人员处理其他事务时,在后台消化同行评审文献。 ## 药物重定位的实际验证 两篇论文均聚焦于药物重定位任务,即寻找已有药物(如癌症治疗药物)的新用途。谷歌的Co-Scientist在多个任务上表现出色,其中一项涉及肝纤维化治疗。系统基于现有文献和数据库,提出了一种候选药物方案,而该方案随后在实验室测试中得到了验证。FutureHouse的Robin系统则展示了从假设生成到数据分析的完整流程:它能阅读论文、提取关键数据,并针对特定问题(如药物靶点)进行推理。在测试中,Robin成功识别出可用于治疗罕见病的已上市药物,其推测的准确性得到了后续实验支持。 ## 局限与展望 尽管结果令人鼓舞,但两篇论文也指出了当前AI系统的局限性。首先,它们高度依赖已有数据的质量——如果文献存在偏倚或实验设计有缺陷,AI的结论也会受影响。其次,AI目前仅能处理相对简单的假设(如“药物A对疾病B有效”),对于涉及复杂机制或因果关系的科学问题,仍需要人类科学家的深度参与。此外,系统的可靠性仍需更多独立验证:Nature论文中展示的成功案例数量有限,且多来自公开数据集,实际应用中的真实效果尚待评估。 总体而言,这些AI助手更像是“科学家的副驾驶”,而非“自动驾驶仪”。它们能加速文献综述、生成候选假设,但最终的设计、验证和解释仍需由人类主导。未来,随着AI系统能力的提升和数据源的扩展,这类工具或将成为科研基础设施的一部分,帮助科学家在信息爆炸的时代保持洞察力。

Ars Technica13天前原文
谷歌 SynthID 水印技术被 OpenAI、英伟达等巨头采用

在 AI 内容真假难辨的时代,谷歌的 SynthID 水印技术正成为行业标准。谷歌宣布,其 SynthID 数字水印技术已被 OpenAI、英伟达等公司采用。自三年前首次亮相以来,SynthID 已标记了 1000 亿张图片和视频,以及相当于 6 万年的音频数据。 SynthID 与传统的元数据标注不同,它将水印直接嵌入内容的像素或波形中,使其更难被移除。谷歌 DeepMind 科学家 Pushmeet Kohli 表示,团队在提升水印鲁棒性上做了大量研究,即使经过压缩、裁剪或旋转,水印依然存在。尽管有研究者声称找到了移除方法,但谷歌坚称这些方法并未成功。 除了 SynthID,谷歌还支持 C2PA 标准。Pixel 10 手机拍摄的照片会包含元数据,描述图像的处理过程。如果高倍变焦照片包含生成式 AI 元素,也会被标记。谷歌还计划在未来几周内为 Pixel 8、9、10 的视频添加类似功能,并在 Gemini、Chrome 和搜索中集成 C2PA 扫描功能。 SynthID 的普及意味着更多 AI 内容将被可靠标记。谷歌在 Gemini 应用中已支持上传内容并询问是否由 AI 生成。随着 OpenAI 和英伟达的加入,SynthID 有望成为 AI 内容鉴伪的通用标准,帮助用户区分真实与虚构。

Ars Technica13天前原文
Gemini 3.5 Flash:快得让生成式AI终于“算得过账”了

谷歌在今年的I/O大会上正式推出 **Gemini 3.5 Flash**,并宣称这款模型在保持前沿智能水平的同时,大幅提升了效率,有望让复杂的智能体(Agentic)任务真正实现规模化落地。 ## 速度与智能兼得 Gemini 3.5 Flash 的输出速度达到 **近300 tokens/秒**,而基准测试成绩与上一代旗舰模型 Gemini 3.1 Pro 相当——后者的输出速度仅为前者的四分之一。这意味着开发者可以用更低的成本、更短的时间获得同等质量的推理结果,尤其对需要长时间运行的智能体场景至关重要。 ## 效率突破:从“烧钱”到“划算” 生成式AI目前普遍面临成本高昂的困境,而智能体任务(如自动编程、多步骤工具调用)会进一步放大这一问题。Gemini 3.5 Flash 通过 **预训练和后训练的双重优化** 实现了效率飞跃。谷歌产品管理高级总监 Tulsee Doshi 透露,团队从开发者使用反馈中获得了关键洞察,特别是在代码生成和工具使用方面。 > “后训练阶段真正解锁了用户反馈的价值,比如来自 Antigravity 的反馈。你看到的代码性能和工具使用性能的提升,正是这些反馈的体现。” ## 代码能力跃升,对标GPT-5.5 谷歌此次重点强化了模型的代码生成能力,这是智能体方向的核心应用。在 **Terminal Bench** 和 **SWE-Bench Pro** 等专业基准测试中,Gemini 3.5 Flash 不仅大幅超越前代 Flash 模型,还小幅领先 Gemini 3.1 Pro,得分与 OpenAI 更大、更昂贵的 **GPT-5.5** 处于同一区间。 ## 产品落地:从今天开始 Gemini 3.5 Flash 即日起将陆续集成到谷歌的多个产品中。Doshi 强调,这只是开始,未来 3.5 Pro 将进一步提升性能,并延续“Flash 追上 Pro”的迭代节奏。 对于开发者而言,这一更新意味着:更快的响应、更低的推理成本,以及更可靠的智能体能力。如果效率优势能够持续,谷歌或许真的找到了让 AI 从“炫技”走向“实用”的关键路径。

Ars Technica13天前原文

在2026年Google I/O大会上,Google与沃尔沃宣布了一项重大合作:Gemini AI助手将能够接入沃尔沃即将推出的EX60 SUV的外部摄像头,实时解读停车标志等周边环境信息。这一功能依托于沃尔沃内置的Android Automotive操作系统,以及高通Snapdragon芯片提供的算力。 **核心功能与场景** Gemini不仅能翻译复杂的停车标志,还能识别车道标线、回答关于附近地标或餐厅的问题。例如,车主可以直接询问“这里能停多久?”“需要许可证吗?”等。Google表示,未来Gemini还能帮助用户更好地理解导航指令,提升驾驶体验。 **技术实现** 该功能并非仅靠云端AI,而是结合了车端实时计算:沃尔沃EX60搭载的高通Snapdragon系统级芯片负责处理摄像头数据,并通过OTA软件更新持续优化。Google Android Automotive副总裁Patrick Brady强调:“Gemini将使你的驾驶更智能,让你在途中随时了解周围环境。” **潜在风险与挑战** 尽管停车标志解读看似实用,但准确性至关重要。以纽约市为例,停车标志极其复杂,一旦Gemini误读,可能导致罚单甚至车辆被拖走。Google必须确保功能可靠,否则用户可能直接禁用。此外,隐私与数据安全也是用户关注的焦点。 **行业影响** 这是AI从“语音助手”向“视觉+移动”进化的关键一步。将大模型与车载摄像头结合,打开了车外环境交互的新维度。沃尔沃作为首批合作伙伴,未来可能将类似能力扩展到更多车型。Google Maps也将受益于“视觉能力”,提供更精准的导航。 **小结** Gemini上车,不只是语音问答,而是让汽车真正“看懂”世界。虽然目前仅限停车标志,但未来潜力巨大。Google和沃尔沃需要共同确保技术成熟,避免因误判而引发信任危机。

The Verge13天前原文

Google I/O 2026 主题演讲再次以 AI 为核心,发布了包括 **Gemini 3.5 Flash** 和 **Gemini 3.5 Pro** 在内的新一代模型,其中 Flash 版本即日起成为 Gemini 应用和 AI 模式搜索的默认模型,速度更快、代理能力更强,并改善了安全护栏。同时,Google 推出了全新的 **Gemini Omni** 模型家族,首个版本 **Omni Flash** 支持从文本、图片、视频、音频等多种输入生成视频片段,未来目标是从任意输入创建任意内容。此外,Google 还展示了 **Project Aura** 智能眼镜的新进展,以及 **Gemini Spark**——一款始终在线的 AI 代理,可自动撰写邮件、创建学习指南、监测隐藏信用卡费用等。Gmail、搜索等应用也获得了 AI 功能更新。以下是本次大会的 13 大亮点汇总。

The Verge13天前原文

Google DeepMind 在 Google I/O 大会上宣布,将 **街景(Street View)** 数据整合到 **Project Genie** 中,打造沉浸式、可交互的世界模拟器。用户不仅可以在熟悉的街道上漫步,还能调整天气、模拟罕见事件,为机器人训练、游戏开发、旅行规划等场景提供前所未有的真实感。 ## 从街景到“世界模拟器” Project Genie 是 Google 的通用世界模型,能够生成多样、交互的环境。过去,它通过文本或图像提示创建游戏世界;如今,结合 **20 年来积累的 2800 亿张街景图像**(覆盖 110 个国家),Genie 可以精确模拟现实街道的细节。DeepMind 研究员 Jack Parker-Holder 举例:一台即将在伦敦部署的机器人,很少见到阳光。Genie 可以模拟维多利亚式建筑上罕见的阳光反射,让机器人提前适应,避免被强光“惊吓”。 ## 场景:从旅行到灾难模拟 对于普通人,Genie 的街景模拟意味着更丰富的探索体验。你可以“走进”纽约的某个街区,将其切换为雪景,看看冬日的模样;或者模拟“后天”式的极端天气,感受环境变化。这种能力不仅用于娱乐,更在 **机器人训练** 和 **自动驾驶** 中发挥关键作用。Genie 3 此前已为 Waymo 提供模拟器,训练自动驾驶汽车应对“极罕见事件”,如龙卷风或偶遇大象。接入街景后,Waymo 可以针对更多城市的地理特征进行定制化训练。 ## 技术融合:现实与模拟的边界模糊 Google 将街景这一“真实世界的数据宝库”与 Genie 的生成能力结合,标志着世界模型从“虚构场景”迈向“现实镜像”。这不仅降低了机器人部署的成本(减少真实环境测试风险),也让用户能以前所未有的方式“预演”旅行或探索。不过,目前该功能仍处于研究预览阶段,仅面向部分 AI Ultra 订阅用户开放。未来,随着数据集的扩大和模型优化,我们或许很快就能在自己的手机上“穿越”到任何一条街,体验任意天气与事件。 ## 小结 Genie + Street View 的组合,让世界模型不再是科幻概念,而是触手可及的工具。无论是为机器人“预习”伦敦的阳光,还是为旅行者“预览”雪中的巴黎,这项技术都在重新定义我们与数字世界的互动方式。

TechCrunch13天前原文

谷歌在年度I/O开发者大会上发布了Gemini 3.5 Flash,这是其迄今为止最强大的编程和自主AI智能体模型。该模型能够独立执行复杂任务,甚至从零构建操作系统,标志着谷歌从对话式AI向智能体式AI的战略转变。 ## 性能飞跃:速度与质量兼得 **Gemini 3.5 Flash**在编码、智能体任务和多模态推理等几乎所有基准测试上超越了上一代旗舰模型**3.1 Pro**,同时延迟更低。DeepMind首席技术官Koray Kavukcuoglu透露,该模型速度比前沿模型快4倍,而经过优化的版本更是达到12倍提速,且质量不变。这种速度对于需要多智能体同时运行、处理长期任务的场景至关重要。 ## 从聊天到行动:智能体原生设计 谷歌不再将AI定位为“回答问题”的工具,而是转向能**自主规划、构建和迭代**的智能体。在I/O大会上,工程师Varun Mohan演示了多个智能体分工协作,在谷歌的智能体开发平台**Antigravity**中从零构建了一个完整操作系统。Kavukcuoglu表示,3.5 Flash与Antigravity协同开发,为智能体提供了原生的“工作环境”。同期发布的**Antigravity 2.0**是一款专为智能体优先开发设计的桌面应用。 ## 实际落地:银行与数据科学先行 谷歌称,3.5 Flash的智能体能力已在合作伙伴中产生实际影响。例如,银行和金融科技公司利用它自动化原本需要数周的工作流程,数据科学团队则在复杂数据环境中快速发现洞察。模型可自主运行数小时,但在遇到决策点或权限问题时,会暂停并请求用户输入,确保关键判断由人类掌控。 ## 未来蓝图:3.5 Pro协作模式 谷歌计划在后续发布**Gemini 3.5 Pro**,届时两者将形成分工:3.5 Pro负责全局规划与编排,而3.5 Flash则高效执行具体任务。这种“规划-执行”分离的架构,有望进一步释放智能体在复杂工作流中的潜力。 ## 小结 Gemini 3.5 Flash的发布,不仅是技术迭代,更代表了AI应用范式的转变。当模型能够自主执行任务、构建软件、管理项目时,AI的角色从“助手”升级为“协作者”。谷歌正用速度和智能体原生设计,抢占下一波AI落地的制高点。

TechCrunch13天前原文

在2026年Google I/O大会上,谷歌发布了全新的**AI信息代理(information agents)**功能,标志着搜索从被动响应向主动服务的重大转型。与传统的“一问一答”式搜索不同,信息代理能够在后台**7x24小时持续运行**,自动监控用户指定的主题,并在出现重要变化时主动推送通知。用户可以通过AI模式创建多个自定义代理,用于跟踪股价、航班价格、体育赛事、突发新闻、房价趋势等。代理不仅能汇总多源信息,还能解释事件的重要性、对比不同观点,并提供可操作的洞察。这一功能被视为**Google Alerts的进化版**,但远超简单的关键词提醒。信息代理将于今年夏天率先面向美国地区的**Google AI Pro和Ultra订阅用户**开放,后续扩展至更多市场。此外,谷歌还同期推出了搜索界面的大幅改版,包括更智能的搜索框和AI驱动的查询建议,以支持更长的对话式查询。

TechCrunch13天前原文

谷歌在2026年I/O大会上宣布,将扩大其AI安全工具 **CodeMender** 的对外测试范围,邀请更多专家团队试用其API。这款被称为“代码安全AI代理”的工具最早于去年10月亮相,如今谷歌正将其定位为“帮助保护全球代码库”的关键产品。此举紧随Anthropic发布 **Claude Mythos Preview** 之后,后者因宣称“过于强大不宜公开发布”而引发轰动,并吸引了美国联邦储备委员会主席及多家顶级银行的关注。 ### 安全赛道:AI巨头的新战场 Anthropic的Mythos不仅重振了其在政府中的声誉(此前曾因供应链风险认定和诉讼受挫),更开辟了一条高利润的商业路径——面向企业和政府提供早期接入服务。这迫使竞争对手加速行动:OpenAI迅速推出了类似产品,而谷歌现在也通过CodeMender正式入局。谷歌DeepMind CTO **Koray Kavukcuoglu** 在接受The Verge采访时证实,谷歌已与多个政府和企业就使用CodeMender审计系统展开讨论。 ### 从“修复漏洞”到“争夺客户” 与Mythos类似,CodeMender不仅能识别安全漏洞,还能直接修复它们。谷歌CEO **Sundar Pichai** 在周一的媒体简报会上坦言:“Mythos证明了超大规模模型在安全用例中的价值,我们对此表示认可。” 这暗示谷歌正将CodeMender定位为与Mythos直接竞争的产品,而非简单的内部工具。 ### 行业趋势:安全成为AI盈利的关键 随着OpenAI、Anthropic和谷歌等公司面临IPO或保持领先的压力,网络安全正成为AI实验室眼中的“现金牛”。CodeMender的对外扩展标志着谷歌从“技术展示”转向“商业落地”的重要一步。然而,Mythos的“过于强大”叙事是否只是营销策略?CodeMender在实际场景中能否达到同等效果?这些问题仍有待市场验证。 **小结**:AI安全竞赛已从概念验证进入客户争夺阶段。谷歌的入局使竞争更加激烈,但真正的赢家将由实际的安全成效和客户信任决定。

The Verge13天前原文

在今年的 **Google I/O** 大会上,谷歌宣布对搜索进行重大 AI 改造,标志着“十个蓝色链接”时代的终结。新的搜索体验不再以链接列表为核心,而是转变为由 AI 驱动的交互式体验,包括对话式回答、自主信息代理和个性化小工具。用户将能输入更长的自然语言查询,并获得 AI 生成的摘要及后续追问能力。此外,谷歌推出“信息代理”功能,可全天候监控网络变化并主动推送更新,这被视为 2003 年 **Google Alerts** 的进化版。这一转变将进一步减少用户对传统网页链接的点击,对依赖搜索流量的出版商构成新的挑战。

TechCrunch13天前原文

OpenAI 推出了一种新型图像水印技术,旨在应对日益泛滥的AI生成伪造内容。与传统的元数据水印不同——后者常被轻易移除——新方法将水印直接嵌入图像的像素数据中,使得即使截图、压缩或裁剪后,水印依然可被检测。 这一技术被称为“隐形水印”或“像素级水印”,它通过算法在生成图片时对像素进行微调,这些调整对人眼不可见,但能被专用的检测工具识别。OpenAI 表示,该水印能抵抗常见的编辑操作,如调整亮度、对比度、旋转或添加滤镜。 **为何重要?** 随着 DALL·E 3 等图像生成模型的普及,AI生成的逼真图像在社交媒体上被滥用,用于传播虚假信息或冒充真实人物。传统元数据(如 EXIF 标签)容易被去除,而新水印从源头嵌入图像底层,大大提高了追溯难度。 目前,该技术已应用于 OpenAI 的 ChatGPT Plus 和 Enterprise 用户生成的图像。未来,OpenAI 计划将其扩展到其他生成产品,并开源检测工具,以鼓励第三方平台采用。 **潜在局限**:尽管像素级水印比元数据更鲁棒,但极端操作(如大幅改变尺寸或添加随机噪声)仍可能破坏检测。OpenAI 正与学术界合作,持续改进水印的耐用性。

ZDNet AI13天前原文
Google 搜索框 25 年来首次大改:从关键词输入到 AI 对话入口

在过去的 25 年里,Google 搜索框一直是计算领域最具标志性的界面之一:一个细长的白色矩形、闪烁的光标、几个单词,然后是一串蓝色链接。然而,在今年的 Google I/O 开发者大会上,Google 正式宣告这一范式的终结。公司对搜索框进行了彻底重新设计,将其从一个简单的关键词输入框,转变为一个动态的、由 AI 驱动的对话启动器,能够接受文本、图像、PDF、视频甚至 Chrome 浏览器标签页作为输入。 ## 搜索框进化:从“填空”到“对话” Google 搜索与 AI 副总裁 Liz Reid 在周一的媒体简报会上称,这是“自 25 年前搜索框诞生以来最大的一次升级”。新搜索框不再是一个狭窄的输入栏,而是**动态扩展**,以容纳更长、更口语化的查询。旧界面通过限制宽度,无形中鼓励用户使用两三个关键词的短查询;新设计则邀请用户详细阐述复杂问题。 更关键的是,**多模态输入**现在直接集成到主搜索框中。用户可以上传图片、PDF、文件、视频,或从 Chrome 标签页拖拽内容——此前这些功能需要额外步骤进入 AI 模式才能使用,如今它们就在搜索的起点。此外,Google 还部署了一个 AI 驱动的查询建议系统,它“超越了自动补全”,能根据上下文主动引导用户提出更好的问题。 ## AI Overviews 与 AI Mode 合二为一 Google 同时将 AI Overviews 和 AI Mode 合并为一个无缝的搜索流程。过去,用户需要在传统搜索结果页和 AI 体验之间做出选择,这种摩擦如今被消除。新搜索框将根据查询意图自动决定是展示传统链接、AI 摘要还是进入深度对话模式。这意味着,对于简单的事实性问题,用户仍能快速获得答案;而对于研究、比较或创意任务,系统会平滑过渡到 AI 驱动的交互中。 ## 为什么这次改变比看起来更重要 搜索框是 Google 产品生态的核心入口,也是 Alphabet 绝大多数收入来源的起点。此次改版释放了一个明确信号:**Google 不再将搜索视为“关键词匹配”,而是视为“AI 对话”**。用户不必再学习如何提炼关键词,而是可以用自然语言描述需求,甚至附带文件或截图。 对行业而言,这意味着搜索引擎的竞争维度正在改变。传统 SEO 策略可能面临重构,因为 AI 系统不再仅仅依赖关键词权重,而是理解上下文意图。同时,多模态能力的整合也让搜索边界大幅扩展——用户可以直接问“这张照片里的植物是什么品种?”或“这份 PDF 的第三页数据有什么趋势?”,而无需先进行文字描述。 当然,挑战依然存在。AI 生成答案的准确性、对长尾查询的处理能力、以及如何平衡广告收入与用户体验,都是 Google 需要持续解决的问题。但至少从设计理念上看,这次搜索框的变革标志着搜索从“工具”向“助手”的转型迈出了实质性一步。

VentureBeat13天前原文
谷歌让“深度伪造”自己变得简单:Flow 新增虚拟化身功能

谷歌于 I/O 开发者大会上宣布对其 AI 创作工具 Flow 进行重大升级,其中最引人注目的新功能是“虚拟化身”(avatars)。该功能允许用户创建自己的数字克隆,并将其无缝插入 AI 生成的视频片段中。这一更新由全新的 Omni Flash 视频生成模型驱动,旨在为创作者提供更便捷、更一致的自我融入内容的方式。 ## 从“深度伪造”到创作工具 谷歌实验室产品管理副总裁 Elias Roman 在演示中展示了自己如何通过扫描创建数字分身,随后利用 Omni Flash 模型将“自己”放入任意 AI 视频场景中。Roman 表示:“这面向那些想将自己融入内容,但又不想实际拍摄自己的创作者。”这一功能与 OpenAI 已下架的 Sora 应用中的“自拍深度伪造”功能类似,但谷歌称之为“虚拟化身”,并强调其面向社交优先的创作场景。虚拟化身功能也将通过 Gemini 应用和 YouTube 提供。 ## Omni Flash:更丰富的细节与一致性 Flow 本次升级的核心是新的视频生成模型 **Omni Flash**,它接替了之前的 Veo 模型。类似谷歌此前通过 Nano Banana 模型增强图像生成对世界的理解,Omni Flash 在视频生成中带来了更丰富的细节。一个关键改进是角色一致性:过去版本中,AI 生成的角色在连续视频生成中容易出现变形,而 Omni Flash 大幅提升了稳定性,使角色在多个场景中保持外观一致。 ## 面向下一代创作者的 AI 工作流 Roman 指出,谷歌此前从未为创意工作推出过专门产品线(生产力、开发者工具、视频消费是传统强项),Flow 是谷歌为新一代创作者构建工具的尝试。除了虚拟化身,Flow 还引入了多项 AI 代理(agent)和“氛围编码”(vibe coding)功能:用户可设置自定义指令以重复生成特定风格的视频,并创建自动工作流,将相似剪辑自动归类到文件夹中。这些变化与谷歌 I/O 上关于 AI 代理和自然语言编程的宏观战略一脉相承,旨在让 AI 创作工具更加普及。 ## 行业背景与影响 谷歌此举标志着科技巨头在 AI 视频生成领域的竞争进一步白热化。此前 OpenAI 的 Sora 曾引发对“深度伪造”的讨论,但谷歌选择将类似技术包装为“虚拟化身”,并强调其作为创意工具的正面价值。通过将数字分身与 AI 视频生成结合,谷歌降低了内容创作的门槛,但同时也引发了关于身份安全、伦理滥用等潜在问题的思考。对于普通用户而言,这意味着未来生成包含自己形象的 AI 视频将像输入一段文字描述一样简单。

WIRED AI13天前原文

Google 宣布对其 AI Studio 平台进行重大升级,即日起用户可以通过自然语言提示词直接构建原生 Android 应用。该功能允许开发者在浏览器中通过嵌入式 Android 模拟器预览应用,并可将应用安装到实体设备上测试。未来还将支持通过 AI Studio 邀请应用测试人员。 不过,Google 谨慎表示,这一初始版本主要面向“个人实用”类应用,如习惯追踪器、学习测验等,以及硬件相关(如调用摄像头或 GPS)和基于 Gemini API 的 AI 体验类应用。如果你想将应用发布到 Google Play,仍需遵守其严格的审核标准。Google 强调,AI Studio 只是降低了创建高质量应用的门槛,并不会改变应用质量要求。 此外,Google 在 I/O 大会上还发布了 Android 应用构建的 CLI 工具 1.0 版本,计划在 Google Play 中推出名为“Play Shorts”的短视频应用推荐功能,并将把应用和影视内容以推荐形式整合到 Gemini 查询结果中。

The Verge13天前原文

在刚刚结束的 Google I/O 2026 上,谷歌发布了其 AI 购物工具的终极形态——**「通用购物车」(Universal Cart)**。该功能横跨不同零售商与谷歌自家产品(如 Gemini、YouTube、Gmail),允许用户在搜索和与 Gemini 聊天时随时将商品加入同一购物车,并通过谷歌统一结账。 谷歌广告与商务副总裁 Vidhya Srinivasan 在独家简报中表示,用户“常常开着几十个标签页、在不同设备间同步”,而通用购物车的目标就是把这一切整合起来。除了基本的跨平台添加商品外,购物车还将自动追踪价格变化、提供库存提醒、推荐折扣,并警示潜在的购买问题(如尺码不合、配送冲突等)。 这一动作发生在部分竞争对手开始收缩 AI 购物布局的背景下。去年 11 月,谷歌已推出 AI 语音代理替用户致电实体店询问库存,以及半自动在线下单功能。如今通用购物车进一步将 AI 购物推向“全托管”模式——用户只需给出指令,机器人即可完成比价、下单、支付全流程。 然而,让机器人“花钱”也引发了关于隐私、信任与消费自主权的讨论。谷歌强调购物车仅限于谷歌生态内使用,但如何确保 AI 不会过度推荐或诱导消费,仍是悬而未决的问题。对于普通用户而言,这种“一键托管”的购物体验究竟是解放双手,还是交出钱包的钥匙,或许只有时间能给出答案。

The Verge13天前原文

在 2026 年 Google I/O 大会上,谷歌宣布了搜索引擎史上最大规模的更新,核心是让 AI 更深度地融入搜索流程。全新的搜索框不再只是输入关键词的入口,而是成为连接 **AI 概览(AI Overviews)** 与 **AI 模式(AI Mode)** 的智能枢纽。 ### 从搜索框到 AI 入口 新版搜索框支持更长的自然语言查询,并引入 **AI 自动补全** 功能,能根据用户意图实时扩展问题。当用户提出自然语言问题时,**AI 概览** 会“可靠地”出现在结果顶部。更重要的是,用户可以在 AI 概览中直接追问,系统会自动将对话流转至 **AI 模式**——一种类似聊天机器人的搜索体验。用户也可以主动将文档、照片、视频甚至 Chrome 标签页附加到搜索框,直接进入 AI 模式进行多模态查询。 谷歌搜索副总裁 Liz Reid 在简报中强调,团队致力于消除 AI 概览与 AI 模式之间的“摩擦”,让用户无需思考该去哪里,只需使用熟悉的搜索框,就能获得最佳体验。这一更新已于 5 月 19 日面向全球桌面和移动端用户推送。如果用户仍偏好传统结果,可通过“网页”标签切换。 ### AI 代理:搜索从“被动响应”到“主动服务” 更值得关注的是谷歌推出的 **AI 信息代理** 功能。今年夏天,**AI Pro** 和 **AI Ultra** 订阅用户将能使用可自主监测话题的 AI 代理。例如,用户可以让代理在后台持续追踪某乐队巡演信息,即使离线也能收到更新通知。 这标志着搜索从“用户提问-系统回答”的单次交互,转向 **持续、主动的信息服务**。正如谷歌搜索产品副总裁 Robby Stein 所言,AI 代理“在你睡觉时也在研究、寻找信息”。 ### 行业影响与展望 此次更新基于全新的 **Gemini 3.5 Flash 模型**,在响应速度和推理能力上均有提升。结合去年推出的 AI 概览,谷歌正在构建一个分层搜索体系:简单问题由 AI 概览快速回答;复杂、多轮查询由 AI 模式深入处理;长期信息需求则由 AI 代理在后台持续服务。 这一变革直接挑战了传统搜索引擎的范式,也进一步模糊了搜索与 AI 助手之间的界限。对于用户而言,搜索不再是一个动作,而是一种持续、智能的服务体验。

The Verge13天前原文

Google 在 2026 年 I/O 大会上宣布为 Gmail 推出名为 **Gmail Live** 的 AI 语音模式。该功能将 Gemini Live 的对话能力与邮箱深度整合,用户只需点击搜索栏中的图标即可用语音提问。 在演示中,Google 员工通过语音询问孩子学校的活动安排和底特律旅行详情,Gmail Live 便从收件箱中提取出具体日期、地点等信息并直接展示。这一功能旨在解决传统邮件搜索中“翻找大量邮件才能找到关键细节”的痛点。 然而,准确性是核心挑战。Gmail 产品副总裁 Blake Barnes 强调,信任是 Gmail 的基石,团队在每一步都致力于确保用户能信赖该产品。为此,Gmail Live 会显示信息来源,允许用户核实结果。 此外,Google 还将类似语音 AI 能力引入 Docs 和 Keep。在 Docs Live 中,用户可与 Gemini 语音讨论并协助组织文档;在 Keep 中,语音输入可快速创建笔记。 **行业背景**:Gmail Live 的推出标志着 AI 语音助手从通用对话向垂直场景的深化。与 Siri 或 Alexa 不同,Gmail Live 专注于邮箱这一高价值数据源,通过“对话式搜索”降低信息获取门槛。如果准确性得以保证,该功能可能重塑用户处理邮件的方式——从被动阅读转向主动语音查询。

The Verge13天前原文

Google 在 2026 年 I/O 大会上正式发布了 **Gemini Spark**,这是其对标年初引发轰动的 AI 智能体平台 **OpenClaw** 的自主产品。Gemini Spark 是一款始终在线的 AI 智能体,能够为用户撰写邮件、创建持续更新的学习指南、监控信用卡账单中的隐藏订阅费用等。 ## 核心能力与架构 Gemini Spark 由最新推出的 **Gemini 3.5 Flash** 模型驱动,利用 Google Cloud 上的虚拟机实现 **7×24 小时后台运行**。它深度集成 Workspace 应用(如 Gmail、Docs、Sheets、Slides),并通过 **模型上下文协议 (MCP)** 扩展至第三方服务,包括 Canva、OpenTable 和 Instacart。MCP 是一种开放标准,允许 AI 模型接入外部系统或数据源。 ## 本地与跨平台交互 今年夏天,Google 将允许 Spark 通过 macOS 上的 Gemini 应用与本地文件交互。用户关闭笔记本电脑或手机后,Spark 仍可继续在后台工作。Google Labs、Gemini 及 AI Studio 副总裁 Josh Woodward 在简报中描述:“使用它时,你几乎感觉像是把任务抛过肩膀,Spark 会接住并完成。” ## 通信与权限控制 Google 计划让用户直接通过短信或邮件与 Spark 沟通,类似 OpenClaw 用户与个人智能体聊天的方式。Spark 还将连接 Chrome 浏览器,并在名为“Android Halo”的新 UI 空间显示实时更新。 Spark 将“在用户指导下”运行,用户可以控制其连接对象和开启时机。系统在执行“高风险操作”(如支付或发送邮件)前会请求用户许可。 ## 行业背景与意义 OpenClaw 今年初在科技界引发轰动,推动了 AI 智能体平台的竞争。Google 此时推出 Gemini Spark,旨在巩固其在 AI 领域的地位,并借助自身云服务和应用生态优势提供差异化体验。Spark 的“始终在线”特性与 MCP 开放协议,可能加速 AI 智能体从实验性工具向日常生产力助手的转变。 Gemini Spark 目前正面向“受信任的测试者”逐步推出,正式上线时间尚未公布。

The Verge13天前原文