谷歌正在将其AI能力更深地植入Gmail。在近日的Google I/O大会上,这家科技巨头正式宣布推出**Gmail Live**——一项由Gemini驱动的会话式AI功能,让用户可以用自然语言语音提问,快速从海量收件箱中找到所需信息。 ## 从关键词搜索到自然对话 传统上,在Gmail中查找某封特定邮件需要输入关键词或发件人地址,但当你记不清准确信息时,搜索往往令人沮丧。例如,你可能只记得“下周的牙医预约”或“Airbnb的进门密码”,却难以通过零散的关键词精准定位。Gmail Live改变了这一体验:用户可以直接用自然语言提问,比如“我孩子学校活动的详细信息是什么?”或“底特律那趟航班的座位号是多少?”,AI会理解上下文并给出答案。 ## 理解上下文与多轮对话 根据谷歌产品负责人Devanshi Bhandari的演示,Gmail Live不仅能回答单次提问,还支持**多轮对话**。例如,用户先问“关于孩子的课堂展示项目”,接着可以追问“那班级旅行呢?”——AI能理解“旅行”与“实地考察”之间的细微差别,并自动关联到同一主题的邮件。更关键的是,它可以从邮件中提取非常具体的信息,比如**酒店房间号**,甚至能推断出用户指代的人,即使未明确提及姓名。 ## 场景价值:AI落地的“甜点” 在公众对AI价值产生质疑的当下,谷歌希望用这种“解决日常痛点”的功能来证明AI的实用性。几乎每个人都经历过在收件箱里翻找某封邮件的抓狂时刻——无论是寻找航班确认号还是孩子学校的活动详情。将AI用于这种高频、低门槛的场景,比抽象的技术演示更具说服力。Gmail Live正是谷歌展示其AI技术如何转化为消费者实际收益的一个缩影。 ## 功能扩展与未来 除了Gmail,谷歌还计划将类似语音技术引入其待办事项应用。虽然目前Gmail Live仍处于早期阶段,但它的推出标志着AI与日常工具的融合正从“被动搜索”转向“主动对话”。对于拥有超过18亿用户的Gmail而言,这一功能可能成为AI普及的重要催化剂。
谷歌正在将AI编程热潮直接引入Android应用开发领域。周二,该公司宣布在其基于网络的**Google AI Studio**中新增原生Android应用创建功能,将原本需要数周设置和编码的过程缩短至几分钟。同时,谷歌表示消费者将能够通过Gemini AI在Play商店和网络上找到所需应用,为开发者拓展了应用被发现的机会。 谷歌表示,这项新功能对两类人群都很有意义:希望快速原型新应用的资深开发者,以及首次尝试创建应用的初学者。通过提供基于网页工具的“氛围编码”能力来构建Android应用,谷歌正在与Cursor、Replit、Lovable、Claude Code等AI驱动开发工具展开竞争,同时也向非技术创作者开放了Android开发的大门。此举也代表着谷歌在桌面版Android Studio中通过Gemini提供AI编码支持后的进一步扩展。 据谷歌介绍,这些应用使用**Kotlin**编程语言和**Jetpack Compose**工具包构建,并支持与GPS、蓝牙、NFC等硬件传感器集成。不过,目前生成的应用仅供个人使用,向家人和朋友发布的计划仍在路线图中。谷歌建议该技术可用于创建个人工具、简单社交应用、硬件交互体验或AI驱动体验。 当前,应用开发者可以直接在网页浏览器中使用内置的**Android模拟器**预览和交互正在构建的应用。用户还可以通过USB线连接电脑,利用集成的**Android调试桥(adb)**将应用安装到手机上。对于希望进一步推进项目的用户,AI Studio可以自动创建应用记录、打包并上传至Google Play控制台的内部测试轨道,方便开发者持续迭代和更新。希望公开发布的用户可以通过下载zip文件或直接导出到GitHub,将项目移交给Android Studio。未来,谷歌计划允许创作者将应用发布给家人和朋友,并增加对Firebase集成的支持。
在今年的 Google I/O 开发者大会上,谷歌正式发布了 **Gemini Omni**,一个全新的多模态模型家族。与以往的多模态模型不同,Omni 并非简单地将文字、图像、音频和视频拼接在一起,而是能够**跨模态推理**,理解物理、文化、历史和科学知识,生成连贯且高质量的视频内容。 ### 从“理解”到“创造” 谷歌 CEO Sundar Pichai 在发布会上表示:“当我们在三年前首次推出 Gemini 时,它就原生支持多模态。但 Omni 的目标是让 AI 从预测文本转向模拟现实。” 以 Omni Flash 为起点,用户可以通过自然对话的方式,结合图片、音频、视频和文字作为输入,让模型生成或编辑视频。例如,输入“一个关于蛋白质折叠的黏土动画讲解”,Omni 不仅会生成一段定格动画风格的视频,还会自动配上画外音,用通俗的语言解释氨基酸链如何折叠成 α 螺旋和 β 折叠。 ### 不仅仅是视频生成 虽然 Omni 的首个应用聚焦于视频,但其长期愿景更为宏大。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 透露,未来 Omni 将支持“从音频生成图像”或“从视频生成音频”等多种双向转换。谷歌已有专门的视频模型 Veo,但 DeepMind 产品管理总监 Nicole Brichtova 强调:“Omni 不是 Veo 的简单升级,而是将 Gemini 的推理能力与媒体模型的渲染能力相结合的下一步。” ### 防止滥用与安全措施 作为发布的一部分,用户还可以使用自己的数字分身创建视频(类似 OpenAI 在 Sora 中推出的 Cameo 功能)。为防止深度伪造,用户需要通过严格的身份验证流程。谷歌表示,所有由 Omni 生成的内容都将添加不可见的数字水印,并遵守现有的 AI 安全准则。 ### 行业影响 Gemini Omni 的发布标志着多模态 AI 从“理解内容”迈入“创造世界”的新阶段。过去,生成式 AI 主要依赖文本提示;如今,用户可以通过混合多种输入形式,更自然地表达创意。对于内容创作者、教育者和营销人员而言,Omni 可能大幅降低视频制作的门槛。 不过,Omni 目前仍处于早期阶段,首批功能仅支持视频生成,且仅面向部分开发者开放。谷歌计划在未来几个月内逐步扩大访问权限,并增加更多模态组合。
在谷歌 I/O 大会前夕,Google DeepMind 首席执行官 **德米斯·哈萨比斯** 接受了 WIRED 专访,对当前流行的“AI 将大规模取代程序员”论调表达了强烈不同意见。他认为,企业若因 AI 提升生产力而裁员,不仅缺乏想象力,更误解了技术本质。 ## 核心观点:效率提升应催生更多创造,而非减员 哈萨比斯直言,他对那些言之凿凿预测 AI 将导致程序员失业的言论感到困惑,并暗示背后可能有融资等“别有用心”的动机。他强调,从 DeepMind 和谷歌的角度看,如果工程师因 AI 工具而变得高效三到四倍,公司正确的做法是**承接三到四倍更多的工作**,而不是裁掉员工。 “我有上百万个想法,从实验室药物发现到游戏设计,”哈萨比斯说,“我希望能有空闲的工程师去做这些事。”他批评那些试图用 AI 替换开发者的公司是“缺乏想象力,也不理解真正会发生什么”。 ## 模型亮点:Gemini 3.5 Flash 主打代理式编程 专访的背景是谷歌在 I/O 大会上发布的一系列 AI 更新。其中,**Gemini 3.5 Flash** 模型通过名为 **Antigravity** 的编码工具,提供前沿的编码与推理能力。谷歌称其比竞品更快、更便宜。该模型专为复杂代理式编程任务训练,包括: - 将大型代码库从一种语言迁移到另一种语言 - 查找并修复深层棘手代码中的 bug - 甚至从头编写完整操作系统 此外,更强大的 **Gemini 3.5 Pro** 将于下月首次亮相。 ## 行业背景:AI 裁员潮与哈萨比斯的反向立场 当前,AI 编码能力已引发广泛焦虑,认为 AI 可能即将淘汰编程岗位。亚马逊、Salesforce、Block 等科技巨头甚至将近期裁员归因于 AI 应用。哈萨比斯的表态则与这一趋势形成鲜明反差。他认为,Alphabet 旗下拥有众多业务线,恰恰可以充分利用软件生产力革命——而不是缩减人力。 ## 小结 哈萨比斯的观点为 AI 时代的就业问题提供了一剂清醒剂:**AI 的真正价值在于赋能人类做更多、更有想象力的事,而非简单替代。** 对于开发者而言,这或许是最值得关注的信号。
在今年的 **I/O 开发者大会** 上,谷歌发布了 **Gemini Spark**,这是一款始终在线、主动收集数据的 AI 代理,旨在接管用户的日常数字事务。与需要用户主动提示的标准 Gemini 应用不同,Spark 会在用户离线时主动挖掘个人信息(如日历日程、Gmail 确认邮件),并自动执行任务——例如定期检查信用卡账单以标记意外费用、扫描关于孩子的邮件并提取关键日期生成晨间摘要、甚至根据会议笔记起草文档和跟进邮件。 这一概念并非谷歌独创。此前,Anthropic 的 **Claude Cowork** 和爆红的 **OpenClaw** 已展示了 AI 代理的潜力:Claude 能自动整理桌面截图,OpenClaw 则试图全自动化管理用户的收件箱、日历和短信,尽管也带来了数据安全风险(例如曾险些删除 Meta 员工的大量邮件)。Gemini Spark 的差异化在于其**主动性与深度整合**——它直接接入谷歌生态(如 Gmail、Calendar),无需第三方集成即可获取个人信息,并能在用户不干预的情况下持续运作。 然而,这种便利伴随着显著风险。用户必须授予 Spark 对个人数据和计算机的完全控制权,而谷歌在隐私保护方面的过往记录(如数据处理争议)可能引发担忧。此外,Spark 的定价不菲:初期仅向少量测试者开放,随后以 **每月 100 美元以上** 的 AI 订阅计划提供 beta 版本。这一定位将其限制在高端用户群体,但若成功,可能重塑人们与数字助手的交互方式——从被动问答转向主动代理。 行业观察者指出,AI 代理的竞争正从“能做什么”转向“敢让它们做什么”。谷歌凭借其庞大的用户数据池和跨服务整合能力,在技术上具备优势,但如何平衡自动化与用户信任,将是 Spark 面临的关键考验。
在2026年I/O大会上,谷歌宣布对搜索进行重大AI升级,推出全新AI搜索框、信息代理、代理编程等多项功能,标志着搜索从“找链接”向“替你做事”的智能助手转变。 ## 核心更新一览 谷歌搜索副总裁Liz Reid表示:“搜索的目标始终是帮助你提问任何问题。”但如今,搜索不仅能回答问题,还能为你研究、购物、预订、监控和创建内容。主要更新包括: - **AI模式**:由全新 **Gemini 3.5 Flash** 模型驱动,支持多轮对话、多模态理解(图像、视频)和复杂任务推理。该模型专为代理和编程优化,号称在长周期任务上表现出色。 - **信息代理**:可后台持续监控指定主题,主动推送更新。 - **代理编程**:直接在搜索框内构建小型应用,无需离开搜索界面。 - **个性化功能**:整合Google应用数据,提供更贴合个人需求的结果。 ## AI模式:更智能的对话式搜索 AI模式现已在桌面和移动端上线,底层模型Gemini 3.5 Flash被描述为“构建更强大智能代理的重大飞跃”。它能够跨来源推理、处理更长提示、理解图片和视频,并完成多步骤工作流。用户可以从AI概览无缝转入对话式交互,实现更自然的搜索体验。 ## 信息代理:后台监控,主动通知 信息代理功能允许用户设置关注话题(如特定新闻、价格变化或学术进展),代理会在后台持续监控,并在有重要更新时主动通知。这类似于一个永不休息的私人研究助理。 ## 代理编程:搜索即开发环境 代理编程是本次更新中最具突破性的功能之一。用户可以直接在搜索框中用自然语言描述需求,AI将自动生成并运行小型应用程序,无需编写代码或切换工具。例如,输入“创建一个计算器应用”即可立即使用。这大大降低了开发门槛。 ## 个性化:搜索更懂你 新的个性化功能允许搜索调用用户的Google应用数据(如日历、邮件、云端硬盘等),从而提供更精准的结果。例如,搜索“我下周的会议安排”可直接汇总日历信息。 ## 影响与展望 这些更新表明,谷歌搜索正从信息检索工具演变为主动式智能助手。AI模式和信息代理将提升信息获取效率,代理编程则可能改变轻量级应用的开发方式。然而,隐私和用户数据控制仍是关键挑战。谷歌需要确保个性化功能不会滥用用户数据。 总体来看,谷歌正在将AI深度融入搜索的每一个环节,未来的搜索将不再是简单的问答,而是一个能理解、执行甚至创造的智能平台。
在今年的 **Google I/O** 大会上,谷歌描绘了搜索的未来图景:一个由 **AI 代理**驱动、高度个性化且自动化的全新体验。谷歌搜索负责人 **Liz Reid** 表示,用户将能直接在搜索中创建、定制和管理多个 AI 代理,用于处理各种任务——例如设置一个代理来追踪股市趋势,并在条件满足时主动推送提醒。 这一转变的核心是“信息代理”概念:搜索不再只是被动应答,而是能持续为你工作,甚至在你离线时也保持活跃。例如,你可以要求 AI 模式“随时更新我喜欢的运动员发布的联名鞋款”,谷歌便会生成一个专属代理,持续监测相关信息,一旦有新品发布(如 A'ja Wilson 的粉色 Nike),就会推送通知并附带购买链接。该功能将于今年夏天首先面向 **AI Pro 和 Ultra** 订阅用户开放。 此外,谷歌还推出了 **Gemini 3.5 Flash** 作为 AI 模式回答的默认底层模型,并改进了搜索框的响应能力。这些“代理式”体验还包括预订代理等自动化功能,尽管此前类似 Duplex 的项目已停止运营,但谷歌显然在探索更深入的自动化路径。 **行业影响**:这一动向标志着搜索从“信息检索工具”向“任务执行平台”的转型。对于普通用户,这意味着更少的主动操作和更智能的预测服务;但对于依赖搜索流量的网站和广告商,用户与页面的直接交互减少可能带来挑战。同时,隐私与数据安全也成为焦点——代理需要持续访问用户数据才能发挥作用,谷歌如何在便利与信任之间平衡,将是关键考验。
Google 在 I/O 2026 大会上对其 AI 订阅计划进行了重大调整,推出了一款月费 100 美元的“AI Ultra”低价版,同时将完整版 Ultra 计划的价格从 250 美元降至 200 美元。此外,AI Pro 等计划也新增了 YouTube Premium Lite 等福利。 ## 新低价 Ultra 计划:面向开发者和创意人士 新推出的 **AI Ultra(低价版)** 月费 100 美元,主要面向开发者、技术工作者和创意专业人士。该计划包括: - 在 Gemini 应用和 AI 驱动开发工具 **Google Antigravity** 中,使用额度为 AI Pro 计划的 **5 倍** - 优先访问 Google Antigravity - 集成 **Gemini 3.5 Flash**,用于更快速的代码测试和调试 - 20TB 云存储空间 - 包含 **YouTube Premium 个人版**(无广告) ## 完整 Ultra 计划降价 原本月费 250 美元的 **完整版 AI Ultra** 计划现已降至 **200 美元**。该计划提供 Gemini 应用和 Antigravity 中 **20 倍** 的使用额度,以及其他高级功能。 ## 所有计划的新功能 Google 还推出了 **Gemini Spark**,一个可自主执行复杂任务的 AI 代理,目前仅在美国可用。该功能本周向测试者开放,下周将进入 Beta 阶段。 此外,部分 AI Pro 订阅用户将免费获得 **YouTube Premium Lite**,该服务提供无广告观看体验。 ## 如何选择? - **普通用户**:AI Pro 计划性价比高,适合日常使用。 - **开发者/创意人士**:若需更高额度与存储,100 美元的低价 Ultra 计划更划算。 - **重度用户/企业**:完整 Ultra 计划降价后吸引力大增,尤其适合需要极高使用限额的团队。 Google 此次调整意在覆盖更广泛的用户群,同时保持与 OpenAI 等对手的竞争力。
电子垃圾(e-waste)正成为全球增长最快的废弃物流之一。据联合国统计,2022年全球产生了约6200万吨电子垃圾,但只有不到四分之一被妥善回收。大多数电路板最终被粉碎、焚烧或填埋,不仅浪费了宝贵的稀有金属,也失去了其中的可复用元件。 一家名为 **Tuurny** 的初创公司正试图改变这一现状。他们的核心思路很简单:在电路板被送入粉碎机之前,先用机器人将仍可使用的 **RAM 内存芯片** 和其他高价值元件拆解下来。 ## 机器人拆解:精准“拆弹”而非暴力粉碎 Tuurny 的解决方案是一套配备机械臂的自动化拆解系统。机械臂通过视觉识别和机器学习算法,能够定位电路板上的 IC 芯片(如内存颗粒、处理器等),并使用热风枪或精密夹具将其安全取下。与传统回收流程中整板粉碎后再进行化学提炼不同,这种“先拆后碎”的方式可以保留元件的功能完整性,使其能够直接进入二手市场或用于维修。 对于内存芯片而言,这种拆解尤其有价值。因为许多旧设备中的 RAM 模块虽然技术规格落后,但对于工业控制、嵌入式系统或某些特定场景(如老式服务器、ATM机等)来说仍是刚需。从电子垃圾中回收的“遗产芯片”(legacy chips)可以有效缓解供应链短缺问题,同时降低对全新芯片的依赖。 ## 商业模式与经济性 Tuurny 的商业模式是向电子垃圾回收商或大型企业提供拆解服务,或直接出售回收来的二手芯片。据该公司估算,一块典型的 PC 主板上包含价值数美元的可复用芯片,而机器人拆解的成本远低于人工拆解(人工不仅慢,而且容易损坏元件)。随着全球芯片短缺的持续,二手芯片的市场需求正在上升,这为 Tuurny 提供了商业可行性。 不过,该技术目前仍面临挑战:不同品牌、不同年代的电路板布局差异巨大,机器人需要不断学习新的“拆解策略”;此外,部分芯片被胶水或封装材料固定,拆解过程中可能受损。Tuurny 表示正在通过更精细的视觉算法和柔性夹爪来提升成功率。 ## 行业背景与意义 电子垃圾回收长期以来是“粗放型”产业,主要关注贵金属(金、银、铜、钯)的提炼,而忽略了功能元件的再使用。Tuurny 的思路代表了 **“精细化回收”** 的升级方向——将电子垃圾视为一座“城市矿山”,不仅提取原材料,更直接复用其中的“半成品”。 从环保角度看,复用芯片避免了制造新芯片所需的巨大能耗和水资源消耗(制造一枚芯片的碳排放可达其重量的数百倍)。从产业安全角度看,回收遗产芯片有助于减少对特定国家或厂商的供应链依赖。 当然,Tuurny 并非唯一一家探索此方向的初创公司。例如,荷兰的 **Closing the Loop** 和美国的 **ERI** 也在尝试类似技术。但 Tuurny 的差异化在于专注于 **高精度、高价值芯片** 的拆解,而非泛泛的整机回收。 ## 小结 机器人拆解电子垃圾以回收内存芯片,听起来像是一个“古老”的创意,但直到近年 AI 视觉和柔性抓取技术的成熟,才使其具备商业可行性。Tuurny 的尝试如果成功,可能推动整个电子垃圾回收行业从“炼金术”转向“芯片再造”。对于消费者而言,这意味着未来的旧手机、旧电脑或许能“死而复生”,成为另一台设备的零件来源。
ZDNET 于 2026 年 5 月 19 日正式发布“大竞猜”比赛的官方规则。该活动由 Ziff Davis, LLC 主办,面向美国 50 州及哥伦比亚特区年满 18 周岁的合法居民。比赛时间为 2026 年 5 月 19 日东部时间中午 12:01 至 2026 年 9 月 1 日东部时间晚上 11:59。参与者无需购买即可参赛,但需通过 CNET 集团旗下网站完成三轮竞猜问题。每轮问题因站点而异,但题目可重复。每位参与者仅限一次有效提交。 ## 参赛资格与限制 比赛明确排除以下人群:在选拔日期前 9 个月内曾获得主办方任何比赛奖项者;过去 6 个月内受雇于主办方或其关联机构的人员(包括员工、顾问、独立承包商、实习生);以及上述人员的直系亲属(父母、继父母、法定监护人、子女、继子女、兄弟姐妹、继兄弟姐妹、配偶)和同住家庭成员(每年同住至少 3 个月者)。 ## 比赛流程与裁决 参赛者需在比赛期间通过指定网站提交答案。每轮问题的具体内容未在规则中详列,但暗示可能与科技趋势、产品发布或行业预测相关。所有裁决由主办方做出,且为最终决定。 ## 行业背景与意义 此类竞猜活动在科技媒体中常见,旨在提升用户参与度和社区互动。通过预测性问答,主办方不仅能收集用户兴趣数据,还能增强品牌粘性。对于 ZDNET 而言,这可能是其年度内容营销策略的一部分,利用游戏化机制吸引读者关注 AI、云计算等前沿话题。规则中的严格限制(如排除近期获奖者和雇员)体现了合规性,避免法律风险。 总体而言,该比赛规则清晰,流程简单,但核心的竞猜题目和奖品细节有待后续公布。参与者应关注 CNET 集团网站以获取最新信息。
近年来,越来越多的学校在毕业典礼上引入 AI 播报系统,用以自动念出走上台的学生姓名。这项技术本意是为了解决人工播报时可能出现的发音不准、节奏不佳等问题,但实际效果却远未达到预期。最近多场毕业典礼上,AI 播报员频频出错,要么念错名字的发音,要么直接跳过某些学生的姓名,导致现场陷入尴尬,也引发了公众对 AI 在重要仪式上可靠性的质疑。 ### 技术初衷与现实落差 毕业典礼是学生生涯的重要时刻,每位学生都希望自己的名字被准确、庄重地念出。传统上,学校会安排教师或专业播音员担任播报员,但人工播报难免因不熟悉多文化姓氏、紧张或疲劳而出现卡顿或误读。AI 播报系统正是为此而生——通过语音合成和文本转语音技术,理论上可以做到每个名字都发音清晰、节奏一致。 然而,现实却给了这项技术一记响亮的耳光。据媒体报道,在近期几所大学的毕业典礼上,AI 播报系统出现了多种故障:有的名字被错误地重读或音节拆分,有的学生名字直接被系统跳过,导致学生上台后一片寂静,只能尴尬等待。更糟糕的是,系统有时会随机插入不相关的音效或词语,进一步破坏了仪式感。 ### 技术瓶颈:多语言与个性化发音仍是难题 AI 播报的核心挑战在于名字的多样性。美国等多元文化国家的学生姓名往往来自不同语言背景,包含非英语的发音规则、声调甚至特殊字符。虽然现代语音合成模型(如 Tacotron、WaveNet)在标准英语上已接近真人水平,但对于罕见姓氏、非英语拼写或复合名字,模型仍缺乏足够的训练数据,导致发音偏差。 此外,许多 AI 系统依赖文本到语音的映射,但同一拼写在不同语言中可能有截然不同的读法。例如,“Nguyen”在越南语中发音近似“文”,而 AI 可能按英语规则读成“努根”。系统若无法识别姓名来源并调用相应发音库,就极易出错。 ### 学校与学生的反应 面对 AI 播报的失误,学校方面态度不一。部分学校表示将优化系统,增加人工审核环节;也有学校认为 AI 出错概率低于人工,仍将继续使用。但学生们显然不太买账——社交媒体上充斥着对“AI 翻车”的吐槽,有人调侃“连 AI 都读不对我的名字,看来我爸妈起名太有创意了”,更多人则表达了对重要时刻被破坏的失望。 ### 行业展望:AI 需要“人情味” 毕业典礼播报只是 AI 在仪式场景应用的一个缩影。从婚礼司仪到体育赛事解说,AI 语音正试图进入更多需要“人情味”的场合。但当前的技术水平表明,AI 在处理非标准化、高情感价值的信息时仍显笨拙。要解决这一问题,可能需要融合多模态信息(如预先录制学生自己的发音样本)、引入实时人工监督,或者干脆回归人工播报,让 AI 仅作为辅助工具。 无论如何,这次事件给 AI 行业提了个醒:技术不能只追求效率,更要尊重场景的严肃性和个体的独特性。否则,再先进的算法也可能成为尴尬的制造者。
著名 AI 研究员 Andrej Karpathy 已正式加入 Anthropic,负责预训练相关工作。Karpathy 在 X 平台上宣布了这一消息,称“未来几年 LLM 前沿将尤为关键”,并表示非常兴奋能重返研发一线。 Karpathy 本周已开始在 Anthropic 工作,在团队负责人 Nick Joseph 的带领下参与预训练任务。预训练是赋予 Claude 核心知识与能力的关键阶段,也是构建前沿模型中最昂贵、计算最密集的环节之一。Anthropic 发言人透露,Karpathy 将组建一支新团队,专门利用 Claude 来加速预训练研究。 Karpathy 是少数能够打通 LLM 理论与大规模训练实践的顶尖研究者。Anthropic 邀请他组建这样的团队,释放出明确信号:其认为 AI 辅助研究(而非纯算力堆砌)才是与 OpenAI、Google 竞争的关键。 回顾 Karpathy 的职业生涯:他曾是 OpenAI 的创始成员之一,专注于深度学习和计算机视觉,2017 年离开加入特斯拉,领导了全自动驾驶(FSD)和 Autopilot 项目。2022 年离开特斯拉后,他重返 OpenAI 工作一年,2024 年再次离开并创立 Eureka Labs,致力于将 AI 助手应用于教育。虽然 Karpathy 表示仍对教育充满热情,并计划未来继续推进相关项目,但目前 Eureka Labs 进展不明。他还开设了在线课程《神经网络:从零到英雄》,并运营一个定期发布 LLM 和 AI 讲座的 YouTube 频道。 与此同时,Anthropic 还聘请了网络安全资深专家 Chris Rohlf 加入其前沿红队。该团队负责对高级 AI 模型进行压力测试,以应对严重威胁。Rohlf 拥有超过 20 年网络安全经验,曾任职于雅虎著名的“偏执狂”安全团队,并在 Meta 工作六年。他还曾是乔治城大学安全与新兴技术中心的研究员,专注于 CyberAI 项目。 Karpathy 的加入无疑将强化 Anthropic 在预训练领域的技术实力,也预示着 AI 行业人才争夺战进一步升级。
在构建语音代理时,延迟、实时音频管理以及多代理协调是常见挑战。本文介绍了如何利用 **Amazon Nova Sonic**、**Amazon Bedrock AgentCore** 和 **Strands BidiAgent** 来设计可扩展且低延迟的语音代理系统。文章重点探讨了三种主流架构模式:**工具模式**、**代理即工具(子代理)模式** 和 **会话分割模式**,并分析了各自的权衡与最佳实践。 ## 关键组件概览 - **Amazon Nova Sonic**:一种基础模型,支持实时、自然的语音到语音对话,能理解语气并保持流畅交互。 - **Amazon Bedrock AgentCore Runtime**:无服务器托管环境,提供双向 WebSocket 流、微 VM 级会话隔离(避免“吵闹邻居”延迟尖峰)、基于 MCP 协议的共享工具托管以及持久化内存。 - **Strands BidiAgent**:开源框架中的集成类,负责管理双向流生命周期、路由工具调用和处理会话管理,简化与 Nova Sonic 的对接。 ## 三种架构模式详解 ### 1. 工具模式(Tool Pattern) 将功能封装为独立工具,代理通过调用工具执行具体任务。这种模式适合功能明确、调用链简单的场景,易于维护和测试。 ### 2. 代理即工具模式(Agent-as-Tool / Sub-Agent) 将子代理作为工具集成到主代理中。每个子代理拥有独立的提示词、记忆和权限,适合处理复杂子任务(如订单查询、退款处理)。主代理负责路由请求,子代理专注执行,从而降低单个代理的复杂度。 ### 3. 会话分割模式(Session Segmentation) 通过隔离不同会话的提示词、内存和权限,避免上下文污染和权限泄露。AgentCore 的微 VM 隔离天然支持此模式,确保每个会话独立运行,提升安全性与并发性能。 ## 最佳实践:降低延迟 - **使用 WebSocket 流**:避免 HTTP 轮询,减少往返时间。 - **微 VM 隔离**:防止高负载代理影响其他会话。 - **工具预加载**:通过 AgentCore Gateway 共享工具实例,减少冷启动。 - **异步处理**:非关键操作(如日志记录)异步执行,不阻塞对话流。 ## 小结 通过组合这三种模式,团队可以构建出既灵活又高性能的语音代理系统。Amazon Nova Sonic 提供实时语音能力,Bedrock AgentCore 解决托管和隔离问题,Strands BidiAgent 简化集成。对于需要处理复杂工作流的企业,这些设计模式是实现规模化语音交互的关键。
## 当终端遇上记忆:Kiro CLI如何借助Amazon Bedrock实现上下文感知对话 在AI Agent快速迭代的当下,**对话记忆**已成为衡量智能助手成熟度的关键指标。近日,AWS发布了一项技术实践:通过自定义**模型上下文协议(MCP)** 服务器,将**Amazon Bedrock AgentCore Memory**与**Kiro CLI**深度集成,让终端内的AI对话不再“失忆”。 ### 痛点:终端里的“金鱼记忆” Kiro CLI作为一款命令行工具,允许开发者直接与Kiro的AI Agent交互。然而,传统CLI模式下的会话往往是“一次性”的——每次对话都被视为独立事件,无法保留上下文。例如,当用户询问“刚才提到的那个API端点是什么?”时,Agent可能一脸茫然。这种**无状态交互**严重限制了复杂任务链的构建,比如多轮调试、配置迭代或跨会话项目管理。 ### 解法:MCP服务器与托管记忆的联姻 Amazon Bedrock AgentCore Memory是AWS推出的**全托管记忆服务**,专为AI Agent设计。它能够自动存储、检索和更新来自历史对话的关键信息,使Agent具备“长期记忆”。而MCP则是一种标准化协议,用于定义Agent与外部工具或数据源之间的交互方式。 在这套方案中,开发者需要做的是: 1. **构建一个自定义MCP服务器**,作为Kiro CLI与Bedrock AgentCore Memory之间的桥梁。 2. 在MCP服务器中实现**记忆读写接口**,将Kiro CLI生成的对话内容同步至Bedrock的托管记忆存储。 3. 当新对话开始时,Agent通过MCP服务器自动检索相关历史记忆,实现上下文延续。 ### 落地价值:从“单次问答”到“持续协作” 集成后,Kiro CLI的使用体验将发生本质变化: - **跨会话连贯性**:用户可以在不同时间点继续同一话题,Agent能准确引用之前的结论或代码片段。 - **任务断点续传**:若调试过程中终端意外关闭,重新启动后Agent仍能“记住”之前的错误日志和修复步骤。 - **个性化适应**:Agent能根据用户长期的使用习惯(如偏好某种代码风格、常用命令组合)给出更贴切的建议。 ### 行业视角:记忆是Agent走向“智能体”的必由之路 当前,AI Agent正从“工具调用者”向“自主工作者”演进,而**持久化记忆**正是这一跃迁的核心基础设施。无论是OpenAI的Assistants API中的线程机制,还是LangChain的记忆模块,业界都在试图解决同一个问题:如何让AI在长时间跨度内保持一致的“人格”与知识状态。 AWS此次通过MCP协议将托管记忆能力开放给Kiro CLI,本质上是在**降低记忆功能的集成门槛**——开发者无需自建向量数据库或管理会话状态,即可为命令行工具赋予企业级的记忆能力。这对于运维自动化、DevOps流水线、以及需要长期上下文支持的开发辅助场景,具有显著的实际意义。 ### 总结 Kiro CLI + Amazon Bedrock AgentCore Memory的组合,展示了**托管服务+标准化协议**在AI工程化中的典型应用模式。对于追求高效与智能的开发者而言,让终端记住每一次对话,或许就是下一轮生产力提升的起点。
亚马逊云科技今日宣布,**SageMaker Python SDK v3.8.0** 为 SageMaker Feature Store 带来三项新能力,旨在帮助数据科学家和工程师更高效地构建、管理和使用机器学习特征管道。这些新功能聚焦于简化特征工程工作流、增强数据治理以及提升查询性能。 ### 新能力一:与 AWS Lake Formation 集成,强化数据治理 第一项新能力是 **SageMaker Feature Store 与 AWS Lake Formation 的深度集成**。通过这一集成,用户可以在特征组(Feature Group)级别应用细粒度的访问控制策略。Lake Formation 提供基于属性的访问控制(ABAC)和行级安全,使得团队能够安全地共享特征数据,同时遵守合规要求。例如,数据管理员可以设定规则,仅允许特定用户或角色访问包含敏感信息的特征列,而其他列则对更广泛的团队开放。 ### 新能力二:支持 Apache Iceberg 表属性,优化存储与查询 第二项能力是 **SageMaker Feature Store 现在支持 Apache Iceberg 表属性**。Iceberg 是一种开源表格式,专为大规模数据分析设计,支持 ACID 事务、快照和模式演进。通过在 Feature Store 中启用 Iceberg 表属性,用户可以享受以下好处: - **更快的查询性能**:Iceberg 的分区修剪和列式存储优化可显著减少扫描数据量。 - **时间旅行查询**:能够回溯到特定时间点的特征数据版本,便于模型调试和重现。 - **自动表维护**:Iceberg 的压缩和清理机制减少了存储成本并提高了查询效率。 ### 新能力三:增强的 Python SDK 功能,简化开发体验 第三项新能力体现在 **SageMaker Python SDK v3.8.0 的更新**,包括更简洁的 API、更好的错误处理以及更丰富的文档。例如,现在可以通过更少的代码行创建和管理特征组,并直接与 Iceberg 表交互。此外,SDK 还支持将特征数据直接写入 S3 中的 Iceberg 格式,无需额外配置。 ### 实际应用场景与价值 这些新能力对机器学习团队意味着什么?以金融风控场景为例,特征工程团队需要频繁更新欺诈检测模型的特征,同时确保敏感客户数据不被滥用。通过 Lake Formation 集成,可以轻松定义哪些分析师能访问哪些特征;而 Iceberg 支持则让历史特征回滚变得简单,便于模型审计。 对于希望快速上手的用户,亚马逊云科技提供了 **完整的端到端示例笔记本**(位于 SageMaker Python SDK 仓库中),涵盖 Lake Formation 治理配置和 Iceberg 表属性设置。开发者可以直接克隆这些笔记本,在自己的 AWS 环境中进行测试。 ### 小结 此次更新标志着 **SageMaker Feature Store 在数据治理和性能优化上迈出重要一步**。随着机器学习模型对特征质量和时效性的要求日益提高,这些工具能帮助团队减少基础设施管理负担,将更多精力投入到特征创新和模型迭代中。建议用户升级到最新 SDK,并参考官方笔记本探索新功能。
在 AI 应用开发中,让大语言模型(LLM)能够自主调用外部工具是释放其能力的关键。Amazon Bedrock 近期推出的编程式工具调用(Programmatic Tool Calling, PTC)功能,正为开发者提供了一条更灵活、可控的路径。本文将通过三种实现方式,展示如何利用 PTC 构建可执行代码的 AI 代理。 ## 什么是编程式工具调用? 传统的工具调用中,模型仅返回工具名称和参数,由应用层负责执行。而 **PTC 允许模型直接生成可执行的代码片段(如 Python 脚本)**,并在安全沙箱中运行,从而实现更复杂的逻辑,比如数据处理、API 调用链或动态决策。 ## 三种实现路径对比 ### 1. 自托管 Docker 沙箱(ECS) - **适用场景**:需要完全控制执行环境、网络策略或使用自定义运行时。 - **实现方式**:在 Amazon ECS 上部署 Docker 容器作为沙箱,通过 Bedrock 的响应触发容器内的代码执行。 - **优势**:最大灵活性,可集成私有库、GPU 资源等。 - **代价**:需自行维护基础设施,处理安全隔离和扩缩容。 ### 2. 托管解决方案(Bedrock AgentCore Code Interpreter) - **适用场景**:希望快速集成,无需管理底层环境。 - **实现方式**:直接使用 Bedrock 内置的 **AgentCore Code Interpreter**,模型生成的代码在 AWS 托管的沙箱中自动执行。 - **优势**:零运维,自动安全隔离,支持 Python 标准库。 - **限制**:无法安装第三方包或访问外部网络(默认配置)。 ### 3. Anthropic SDK 兼容代理 - **适用场景**:团队已使用 Anthropic SDK(如 Claude API),希望迁移到 Bedrock 但保持开发体验一致。 - **实现方式**:通过一个轻量级代理层,将 Bedrock 的 PTC 响应转换为 Anthropic SDK 格式,使得现有代码无需大改即可接入。 - **优势**:降低迁移成本,复用已有工具链。 - **注意**:代理层需自行维护,可能引入额外延迟。 ## 实践建议与思考 从行业趋势看,**PTC 正在模糊“模型”与“应用”的边界**。过去,LLM 仅作为推理引擎,现在它开始直接操控计算资源。这种转变对安全性和可观测性提出了更高要求: - **安全隔离**:无论采用哪种方式,代码执行环境必须与生产环境隔离。Docker 沙箱或托管解释器都应限制文件系统、网络和系统调用。 - **错误处理**:模型生成的代码可能出错,需设计重试、回退或人工审核机制。 - **成本控制**:代码执行消耗算力,尤其是长时间运行的任务,建议设置超时限制。 对于大多数团队,**推荐从托管 Code Interpreter 开始**,快速验证 PTC 在业务场景中的价值。当需求超出托管环境的能力(如需要 GPU 或私有包)时,再迁移到自托管方案。而 Anthropic 兼容代理更适合已有深度绑定 Anthropic 生态的团队。 ## 小结 Amazon Bedrock 的 PTC 功能为 AI 代理的开发提供了更多选择。从自托管到托管,再到兼容代理,开发者可以根据安全、成本和运维偏好灵活设计架构。随着 LLM 编码能力的提升,这种“模型即执行者”的模式将成为构建智能应用的重要范式。
两位前OpenAI员工与多家AI安全非营利组织联合致信投资者,警告称埃隆·马斯克的AI实验室xAI的安全记录不佳,可能成为SpaceX史上最大IPO的“未定价风险”。 ## 核心警告:xAI的安全隐患 信中指出,xAI在安全实践方面“几乎全面落后”于OpenAI、Google DeepMind和Anthropic等前沿AI开发者。联合签署人、前OpenAI政策顾问Page Hedley在采访中直言,xAI的安全记录是行业最差的。这种状况可能导致SpaceX面临更高的监管和诉讼风险,从而影响其估值和IPO进程。 ## 要求披露关键信息 信件要求SpaceX向投资者披露以下内容: - xAI是否计划继续开发前沿AI模型。 - 如果继续,必须发布公开的安全与治理计划。 - 近期SpaceX将大量GPU产能出售给Anthropic的交易,使得xAI在母公司内的定位变得模糊——它是否仍是前沿AI竞争者,还是沦为基础设施提供者? ## 行业背景与影响 SpaceX以约**750亿美元**估值筹备IPO,此前以超**1万亿美元**的私有估值收购了xAI。马斯克曾宣称要将数据中心发射到太空为AI服务,但安全倡导者认为,这种激进策略可能掩盖了xAI在安全实践上的系统性缺陷。 新的AI安全监管组织**Guidelight AI Standards**(由前OpenAI安全研究员Steven Adler和Hedley联合创立)是信件的主要签署方之一。该组织获得私人捐助者支持,旨在推动前沿AI公司的安全标准提升。其他签署方包括Legal Advocates for Safe Science and Technology、Encode AI和The Midas Project。 ## 结论 这封信凸显了AI安全在资本市场的分量——当一家AI公司被并入即将IPO的实体时,其安全实践不再是内部技术问题,而是直接影响投资者信心的财务风险。SpaceX和xAI尚未回应置评请求,但投资者显然需要更多透明度。
一项要求社交网络快速删除性深度伪造及其他非自愿色情内容的法律现已全面生效。但专家警告,该政策可能对受害者帮助甚微,最坏情况下甚至可能助长网络审查。去年5月,总统特朗普签署了《Take It Down Act》,旨在应对非自愿私密影像(NCII)。该法立即将传播NCII(无论是真实还是AI生成的内容)定为犯罪,许多州已至少部分实施。但其同名的移除条款更为广泛——自2026年5月19日起,要求在线平台在48小时内移除NCII,否则面临罚款。联邦贸易委员会主席Andrew Ferguson在截止日期前致函十几家科技公司,包括亚马逊、Alphabet、苹果、Meta、微软、TikTok等。FTC要求平台提供便捷的移除请求流程,并在48小时内删除违规内容及任何“已知的相同副本”。违规每次可能面临超过5.3万美元的民事罚款。Meta、微软、谷歌、TikTok和Snap等主要平台支持该法案,并表示有信心遵守。但专家指出,法律对“亲密影像”的定义可能过于宽泛,且缺乏对虚假举报的惩罚,可能被滥用于压制合法言论。此外,许多受害者面临举报流程复杂、二次伤害等问题。该法案的实际效果仍有待观察。
如果你使用Android Auto仅仅是为了导航和听音乐,那你可能错过了不少实用功能。事实上,通过一些精心挑选的应用,Android Auto可以大幅提升驾驶体验,让每一次出行都更加高效、安全、有趣。以下是6款值得立即尝试的应用,它们涵盖了导航、娱乐、信息获取等多个方面。 ### 1. **Waze**:社区驱动的实时导航 Waze不仅提供基础导航,更以其强大的社区功能著称。用户实时共享路况、事故、警察测速点等信息,帮助你避开拥堵,选择最佳路线。对于经常通勤或长途驾驶的用户来说,Waze的实时更新功能是无可替代的。 ### 2. **Pocket Casts**:播客爱好者的最佳伴侣 如果你喜欢在驾驶时收听播客,Pocket Casts是Android Auto上最出色的播客应用之一。它支持自动下载、播放速度调整、跨设备同步进度,并且界面简洁,与Android Auto的整合非常流畅。你可以轻松浏览订阅的节目,快速切换单集,而不会分散驾驶注意力。 ### 3. **Spotify**:不仅是音乐,还有播客与有声书 虽然很多人已经使用Spotify,但Android Auto版本的优化值得重新审视。除了海量音乐,Spotify还整合了播客和有声书,让你在一个应用中满足所有音频需求。其个性化推荐算法能根据你的驾驶习惯和心情推荐内容,让长途驾驶不再枯燥。 ### 4. **Google Maps**:超越基础导航的全面助手 尽管Google Maps是默认导航应用,但许多用户并未充分利用其高级功能。例如,你可以保存常用地点、查看实时公交信息、搜索沿途的餐厅或加油站,甚至与朋友共享实时位置。在Android Auto上,这些功能都经过优化,语音控制响应迅速,让你无需动手即可获取信息。 ### 5. **Car Scanner ELM OBD2**:实时车辆诊断 对于喜欢了解车辆状态的车主,Car Scanner ELM OBD2是一款强大的工具。通过蓝牙连接OBD2适配器,你可以在Android Auto屏幕上实时查看发动机转速、水温、油耗、故障码等数据。它甚至支持自定义仪表盘,让你根据需求监控关键指标,提前发现潜在问题。 ### 6. **Audible**:有声书让驾驶更有意义 如果你喜欢在驾驶时“阅读”,Audible是有声书领域的标杆。Android Auto版本的Audible支持无缝播放,你可以通过语音命令查找书籍、跳转章节或调整播放速度。结合驾驶场景,选择一本引人入胜的小说或自我提升类书籍,让通勤时间变成学习时间。 ## 小结 以上6款应用覆盖了导航、娱乐、车辆诊断等多个领域,能够显著提升Android Auto的使用体验。如果你尚未尝试,不妨从最感兴趣的一款开始,逐步发掘Android Auto的潜力。记住,安全驾驶永远是第一位,语音控制是这些应用的最佳操作方式。
美国最大电力公司 NextEra Energy 与第六大公司 Dominion 的拟议合并,不仅是资本市场的重磅交易,更折射出数据中心需求激增如何重塑整个电力行业。这笔价值 **670亿美元** 的并购案,将缔造一个在发电总量、天然气发电和可再生能源领域均占据领先地位的超级企业。然而,消费者权益倡导者和分析师警告,合并后的巨无霸可能对消费者和环境产生负面影响。 ## 数据中心:合并的核心驱动力 此次合并的关键在于 Dominion 的战略位置——它正是 **北弗吉尼亚** 的本地电力供应商,而该地区拥有全球最密集的数据中心集群。随着 AI 和云计算爆发,数据中心用电需求急剧攀升,NextEra 希望通过收购 Dominion 快速切入这一高增长赛道。Morningstar 股票分析师 Andrew Bischof 指出,这笔交易让 NextEra 能利用 Dominion 的专长和关系“加速其数据中心中心枢纽计划”,此前 NextEra 在监管同行中已落后。 ## 监管与消费者权益的隐忧 哈佛法学院电力法倡议主任 Ari Peskoe 直言:“合并是为了股东,而非消费者。” Dominion 股东将以溢价出售股份,高管也将因促成交易获得巨额回报,而“费率支付者都是事后才想到的”。合并后的公司市值仅次于埃克森美孚和雪佛龙,其巨大的财务和政治影响力将使有效监管变得异常困难。 ## 交易细节与未来走向 根据周一公布的提案,合并后的公司沿用 NextEra Energy 名称,由 NextEra CEO John W. Ketchum 领导。交易尚需州和联邦监管批准。对于普通家庭和企业而言,这意味着电价可能上涨:垄断性电力公司往往将数据中心基础设施成本转嫁给用户,而缺乏竞争的市场结构进一步削弱了消费者的议价能力。 ## 行业变局:AI 时代的能源博弈 这笔交易标志着电力公用事业进入新阶段:数据中心的能源需求正从技术问题演变为战略资产。NextEra 与 Dominion 的联姻,本质上是对未来计算基础设施控制权的争夺。但正如批评者所担忧的,当一家公司同时掌握发电、电网和数据中心资源时,如何在效率与公平之间取得平衡,将成为监管机构面临的严峻考验。