AI 资讯

每日聚合最新人工智能动态

501

多模态评估器：用 MLLM 作为裁判评估图像到文本任务

新上线

在构建视觉购物、图像或文档理解、图表分析等应用时，如何验证模型输出是否真正基于源图像是一大挑战。纯文本评估器无法判断描述是否忠实反映图像、提取的发票金额是否与文档一致，或屏幕摘要是否虚构了不存在的按钮。Gartner 预测，到 2030 年，80% 的企业软件将具备多模态能力，而 2024 年这一比例还不足 10%。缺乏自动化多模态评估，企业只能在昂贵的人工审核和不可靠的纯文本代理之间左右为难。如今，AWS 在 Strands Evals SDK 中推出了四种新的多模态大语言模型（MLLM）作为裁判的评估器，专门用于图像到文本任务：**Overall Quality**（整体质量）、**Correctness**（正确性）、**Faithfulness**（忠实性）和 **Instruction Following**（指令遵循）。每个评估器都会根据源图像对模型输出进行评分。评估器将图像直接发送给多模态裁判模型，同时附上查询、响应以及可选的参考答案。裁判模型返回基于图像的分数以及推理过程字符串，便于调试。这些评估器可以无缝替换现有 Strands Evals 工作流中的纯文本评估器，并集成到持续集成（CI）中，自动捕捉视觉幻觉、事实错误和指令违规。本文将介绍如何设置这四种多模态评估器并运行图像到文本任务；如何在有参考和无参考评估之间切换；如何为特定领域标准编写自定义多模态评估标准；如何在 Amazon Bedrock 上选择平衡准确性、成本和延迟的裁判模型；以及如何应用提示设计选择来提升评估器与人类判断的一致性。 ## 设置与使用首先，确保已安装 Python 3.10 或更高版本。通过 Strands Evals SDK 可以快速调用这些评估器。示例代码如下： ```python from strands_evals import MultimodalEvaluator evaluator = MultimodalEvaluator( judge_model="anthropic.claude-3-sonnet-20240229-v1:0", evaluator_type="faithfulness" ) result = evaluator.evaluate( image_path="invoice.jpg", query="提取发票总金额", response="总金额为 $123.45", reference="$123.45" # 可选 ) print(result.score, result.reasoning) ``` ## 自定义多模态评估标准若需针对特定领域制定标准，可编写自定义评估标准。例如，在医疗影像报告中，可以定义“报告必须描述病变位置和大小”等规则，评估器将据此打分。 ## 选择裁判模型 Amazon Bedrock 提供了多种多模态模型，如 Claude 3 Sonnet、Claude 3 Haiku 等。**Claude 3 Sonnet** 在准确性和延迟之间取得了良好平衡，适合大多数场景；而 **Claude 3 Haiku** 则更注重成本效益。用户可根据任务需求灵活选择。 ## 提示设计技巧实验表明，在提示中加入“逐步推理”指令（如“请先描述图像内容，再评估回答”）可以显著提升评估器与人类判断的一致性。此外，明确要求模型输出评分理由，有助于调试和审计。通过引入多模态评估器，开发者可以更可靠地自动化评估图像到文本任务的输出质量，减少人工干预，加速 AI 应用的落地。

AWS ML12天前原文

502

I Gave My OpenClaw Agent a Physical Body

新上线

The coding skills of AI models are about to make it much easier to build and deploy robots.

WIRED AI12天前原文

503

AI 如何骗你付款？Visa 公布五大警示信号

新上线

Visa 最新研究指出，AI 加速的欺诈已成为“消费者伤害增长最快的来源”。随着网络犯罪从窃取凭证转向利用 AI 的社会工程攻击，传统的防御手段逐渐失效。本文梳理了 Visa 报告中揭示的五大警示信号，帮助消费者和企业识别并防范这类新型支付欺诈。 ## AI 正在重塑欺诈模式 AI 不仅被用于提升安全防御，也被网络犯罪分子广泛武器化。Visa 的报告强调，AI 正在压缩欺诈周期，使犯罪分子更容易诱骗消费者授权恶意交易。与过去依赖窃取密码或劫持账户不同，现在的攻击更多利用人性弱点，通过精心设计的心理战术让受害者自己完成有害操作。 ## 警惕 ClickFix 式欺诈一种名为 **ClickFix** 的社会工程手法正在兴起。它绕过了传统钓鱼防御，通过制造“问题-解决”场景诱骗用户执行恶意命令。例如，用户可能看到虚假的恶意软件警报，被引导打开命令提示符并粘贴代码“修复问题”，结果却是在自己的设备上部署了恶意软件。这种攻击让用户主动参与犯罪过程，使得标准数字防御难以拦截。 ## Visa 列出的五大警示信号 1. **异常紧迫感**：骗子利用 AI 生成逼真的紧急通知，声称账户异常或支付失败，要求立即操作。 2. **语音克隆**：AI 可模仿亲友或银行客服的声音，通过电话或语音消息诱导转账。 3. **深度伪造视频**：视频通话中伪造熟悉面孔，要求验证信息或紧急付款。 4. **个性化钓鱼邮件**：AI 分析公开数据后生成高度定制化的邮件，内容与用户近期活动相关。 5. **虚假客服渠道**：在搜索引擎或社交媒体上投放广告，伪装成官方客服，引导用户进入假支付页面。 ## 如何自我保护 Visa 建议消费者保持警惕，对任何要求即时付款或提供敏感信息的行为进行二次验证。企业则应加强员工培训，并部署 AI 驱动的反欺诈系统来检测异常行为模式。 ## 小结 AI 的双刃剑效应在支付安全领域尤为突出。了解这些新型欺诈手段，是保护个人资产的第一步。当心那些看似“合理”的付款请求——它们可能正是 AI 精心设计的陷阱。

ZDNet AI12天前原文

504

“氛围编程”即将登陆你的手机

新上线

还记得“这个应用有它的专属App”这句口号吗？如今，随着AI编程工具日益强大和普及，非开发者也能轻松创建满足个人需求的应用程序。在2026年的Google I/O大会上，Google宣布其AI Studio的“氛围编程”工具迎来更新，允许用户在几分钟内创建原生Android应用并导出到手机上。虽然初期仅限于“个人实用工具”，且上架Play Store的规则不变，但这意味着你或许可以自己动手，打造一款完美契合自己习惯的追踪应用。此外，Google还在Android Show上预告了一项新功能：通过提示词即可创建自定义小部件，例如突出显示特定天气指标或推荐新食谱的小工具。这些工具依托Gemini的知识库，可能性相当广阔。不过，这一切都依赖于AI的理解和生成能力，用户需要清晰地表达需求，才能获得满意的结果。移动端的“氛围编程”时代正在到来，个人科技将变得更加个性化。

The Verge12天前原文

505

谷歌2026年将用AI Agent重塑搜索：从“蓝色链接”到“对话式”的全面变革

新上线

在2025年I/O大会上，谷歌正式将AI搜索从测试推向主流，而到了2026年，这一变革将加速到新的高度。谷歌搜索副总裁Liz Reid在主题演讲中明确表示：“谷歌搜索就是AI搜索。”这一转变正在全面展开，尽管外界存在诸多合理质疑，但谷歌显然不会因此止步——所有对谷歌至关重要的指标都表明，这是一条正确的道路。自一年多前谷歌开始测试AI Mode（AI搜索模式）以来，该功能的使用量每季度翻倍。Reid在2026年I/O大会上透露，AI Mode的月活跃用户已超过10亿。这一数字并不令人意外：AI Mode通过对话式交互引导用户不断追问，每一次追问都算作一次搜索。谷歌也在大力推广AI Mode，包括在搜索页面中嵌入显眼的链接和提示，鼓励用户从传统搜索转向AI聊天机器人。与许多付费AI体验不同，谷歌的AI搜索完全免费，所有用户都能获得完整的AI功能。 **AI Overviews（AI概览）** 曾是谷歌AI搜索转型最显眼的元素，但如今它越来越像是通向AI Mode的过渡产品。谷歌推出了全新的“无缝搜索”体验，将AI Mode与AI Overviews深度整合。现在，大多数谷歌搜索都会生成一个AI概览。谷歌还扩展了一项移动端功能——用户可以从AI概览直接进入AI Mode，该功能现已覆盖桌面端。AI Mode的提示按钮悬浮在概览底部，实际上遮挡了顶部自然搜索结果，这无疑会进一步推高AI Mode的使用量，同时也可能降低用户滚动查看传统“十条蓝色链接”的意愿，使自然结果更像脚注而非搜索核心。 Reid还提到，谷歌全新的搜索框是公司25年历史上最大的变化。虽然具体细节尚未完全披露，但可以预见，这一变化将彻底颠覆我们对搜索引擎的认知。从“信息检索”到“任务完成”，谷歌正在将搜索重塑为一个主动的、智能的Agent平台。 **行业影响与隐忧** 对于内容创作者和SEO从业者而言，这一趋势令人担忧。AI Mode直接生成答案，用户点击外部链接的意愿下降，可能导致网站流量进一步下滑。谷歌的“零点击搜索”现象将更加普遍。同时，AI Mode的对话特性可能加剧信息茧房效应——用户只会看到AI筛选后的答案，而非多元化的信息来源。另一方面，对于普通用户来说，AI搜索确实提升了效率。但谷歌在AI领域的绝对主导地位也引发了反垄断担忧。当一家公司同时控制搜索入口和AI生成内容时，如何确保公平竞争和信息的多样性，将是一个长期挑战。 **展望2026** 2026年，谷歌的AI搜索将不再只是“升级”，而是一次彻底的“重塑”。从AI Mode的深度整合到搜索框的彻底变革，谷歌正在构建一个以Agent为核心的搜索生态。用户将不再“搜索”信息，而是“委托”AI完成任务。但这场变革的代价——传统搜索流量的消失、信息获取方式的集中化——才刚刚开始显现。

Ars Technica12天前原文

506

使用 Amazon SageMaker AI 和 vLLM 构建实时语音应用

新上线

实时语音转写是语音助手、直播字幕、联络中心分析和无障碍工具等应用的核心能力。传统请求-响应推理需要等待完整音频上传后才能开始转写，这引入的延迟破坏了实时体验。从 2025 年 11 月起，Amazon SageMaker AI 支持双向流式推理，允许客户端与模型容器之间持续双向传输数据。同时，vLLM 通过其 Realtime API（基于 WebSocket 的双向流）支持实时音频转写。本文将两者结合，展示如何使用 SageMaker AI 的 vLLM 容器部署 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 模型，构建一个完全托管的实时语音转文本服务。 ## 关键特性构建生产级语音 AI 应用需要多个基础设施组件紧密配合，并满足严格的延迟要求。SageMaker AI 和 vLLM 各自解决了不同部分的问题： - **实时语音模型与高效 GPU 服务**：核心是能够增量处理音频的 ASR 模型，vLLM 通过其 Realtime API（原生 WebSocket 端点 `/v1/realtime`）提供支持，并采用分段 CUDA 图执行减少 GPU 内核启动开销，从而降低流式转写中的每 token 延迟。 - **双向流式推理**：SageMaker AI 支持双向流，客户端可同时发送音频并接收转写结果，无需等待完整音频。 - **完全托管与可扩展**：SageMaker AI 负责基础设施管理，包括自动缩放、监控和安全性。 ## 部署步骤 1. **准备模型**：从 Hugging Face 获取 Voxtral-Mini-4B-Realtime-2602 模型，并将其打包为适用于 vLLM 的格式。 2. **创建 SageMaker 端点**：使用 SageMaker SDK 创建一个启用了双向流的端点，指定 vLLM 容器镜像。 3. **配置 WebSocket 客户端**：客户端通过 WebSocket 连接到端点，持续发送音频数据并接收实时转写结果。完整示例代码可在 [GitHub 仓库](https://github.com/aws-samples/amazon-sagemaker-ai-vllm-realtime) 中找到。 ## 性能与优势相比传统方法，该方案显著降低了端到端延迟。例如，在语音助手场景中，用户说话后几乎立即看到转写文本，交互更加自然。此外，SageMaker AI 的托管特性减少了运维负担，而 vLLM 的开源特性允许用户灵活调整模型配置、量化和编译设置。 ## 应用场景 - **语音助手**：实时理解用户指令并快速响应。 - **直播字幕**：为直播视频生成实时字幕。 - **联络中心分析**：实时转写客户通话，进行情感分析或合规检查。 - **无障碍工具**：帮助听障人士实时获取语音信息。这一组合为开发者提供了构建实时语音应用的高性能、低成本方案，推动了 AI 语音技术的普及。

AWS ML12天前原文

507

YouTube Shorts 新功能：用 AI 一键“二创”他人视频

新上线

Google 在 2026 年 Google I/O 大会上宣布了一项 YouTube Shorts 的全新 Remix 功能，借助 Gemini Omni 模型，用户现在可以对他人发布的短视频进行 AI 风格的“再想象”。 ## 功能亮点：从风格迁移到内容植入该功能入口位于 YouTube Shorts 底部“Remix”按钮中，新增的“Reimagine”选项允许用户通过自然语言提示让 Gemini 对原视频进行改造。例如，你可以将一段普通视频转换为**像素艺术、动漫风格或伪纪录片恐怖片**。更进阶的是，用户还能**修改视频内容本身**——比如给人物“大头特效”、添加背景演员、为角色穿上海盗服装，甚至将自己“插入”到原始视频中。这背后的技术由 **Gemini Omni** 多模态模型驱动，能够理解视频场景并生成符合语义的编辑结果。 ## 创作者控制与版权保护为了防止滥用，**创作者可以主动关闭“Reimagine”功能**。如果你上传的是家庭或儿童视频，不希望被他人随意修改，只需在设置中关闭该选项即可。所有通过 Omni 生成的 Remix 视频都会带有**数字水印**，并链接回原始视频，确保原创者的归属权和流量引导。这在一定程度上平衡了创意表达与版权保护的关系。 ## 行业背景与意义这一功能是 Google 在 **AI 视频编辑领域**的最新布局。过去一年，Runway、Pika 等初创公司已推出类似的内容重绘工具，但大多局限于独立创作。YouTube 借助自身庞大的短视频生态，将 AI 编辑直接嵌入社交消费场景，**降低了创意门槛**，让普通用户也能轻松“玩转”视频。同时，这也反映了 AI 从“生成”向“社交化编辑”的演进。未来，短视频平台可能不再是单向的内容消费，而是**基于 AI 的协作式创作社区**。当然，潜在的深度伪造和内容伦理风险仍需关注，Google 的水印与开关机制算是第一步。 ## 小结 YouTube Shorts 的 AI Remix 功能为短视频二创提供了前所未有的自由度，同时也保留了创作者的控制权。随着 Gemini Omni 能力的持续迭代，我们或许很快能看到更多类似“AI 视频混音”的玩法出现在主流平台。

The Verge12天前原文

508

OpenAI 即将启动IPO，AI领域最大规模上市或将到来

新上线

据多方消息，人工智能领域的领军企业 OpenAI 正在积极推进首次公开募股（IPO），最快可能在未来数月内提交相关文件。这一动作标志着这家以非营利起步、后转型为“有限盈利（capped-profit）”架构的公司，正在向资本市场迈出关键一步。 ## 从实验室到华尔街：OpenAI 的资本化之路 OpenAI 的 IPO 计划并非空穴来风。自 2023 年以来，公司已通过多轮融资累计获得超过 **130 亿美元** 的资金支持，其中最大的一笔来自微软的 **100 亿美元** 投资。然而，随着 AI 模型训练成本飙升（GPT-4 训练成本据估算超过 **1 亿美元**），以及商业化产品如 ChatGPT Plus（月费 20 美元）、企业版 API 服务的收入增长，OpenAI 需要更稳定的长期资本来源。 ## 关键看点：估值、架构与市场影响 - **估值预期**：若成功上市，OpenAI 的估值可能冲击 **800 亿至 1000 亿美元**，使其成为仅次于 SpaceX 的美国第二大独角兽。部分分析师认为，考虑到其技术护城河和用户规模（ChatGPT 月活超 2 亿），溢价空间仍存。 - **架构挑战**：OpenAI 独特的“有限盈利”结构可能成为监管焦点。其利润上限机制（投资者回报上限为投资额的 100 倍）与普通上市公司治理规则存在张力，需向 SEC 提供特殊说明。 - **行业连锁反应**：OpenAI 上市将直接挑战 Google、Meta 等巨头在 AI 领域的地位，同时加速 Anthropic、Cohere 等竞争对手的资本化进程。 ## 风险与不确定性尽管前景诱人，但 OpenAI 仍面临多重风险： 1. **监管压力**：全球 AI 监管浪潮（如欧盟 AI 法案、美国 AI 行政令）可能影响其模型部署与数据使用。 2. **盈利模式验证**：目前公司仍处于亏损状态（2023 年亏损约 54 亿美元），需向投资者证明其订阅和 API 业务能持续增长。 3. **人才竞争**：高盛报告指出，AI 领域顶尖人才年薪已突破 **200 万美元**，上市后股权激励的稀释效应可能削弱吸引力。 ## 小结 OpenAI 的 IPO 不仅是公司自身的里程碑，更是 AI 行业从技术探索迈向商业成熟的重要信号。若进展顺利，这将成为 2024-2025 年全球资本市场最受瞩目的科技事件之一。然而，在监管与技术快速迭代的双重挑战下，其最终定价与上市时间仍充满变数。

Hacker News20512天前原文

509

谷歌搜索AI进化：广告也“智能”了，AI生成推销语+内置聊天机器人

新上线

谷歌搜索的AI化浪潮正在全面席卷其广告系统。继昨日宣布推出更大、更对话化的搜索框以及AI生成结果后，谷歌今日宣布，其Gemini AI模型将直接参与广告的呈现与推荐。当用户在搜索中寻找产品时，Gemini会筛选出相关商品，并生成一段“定制化说明”，解释为什么你应该购买这一款。在一则示例中，搜索“紧凑型意式浓缩咖啡机”的用户，可能会看到一个标有“赞助产品”标签的Nespresso Vertuo Up。其下方并非传统的广告文案，而是一段由AI生成的描述：“要寻找一台优质机器，需关注胶囊兼容性和风味多样性、产生丰富油脂的能力、快速加热、以及针对不同杯型和冰咖啡的一键定制选项。这款纤薄、快速启动的机器使用Vertuo胶囊，具有丰富的风味萃取和定制冲泡浓度（例如冰咖啡），3秒加热，支持6种杯型。” 这并非谷歌在本轮广告升级中的唯一动作。部分广告还将内置聊天机器人。这些广告会显示一个“提问”按钮，点击即可与Gemini开启对话。AI聊天机器人将利用产品或服务网站的信息回答用户问题，并可能引导用户填写表单，以便与商家取得联系。与此同时，谷歌正在其聊天机器人风格的搜索体验“AI模式”中测试新型广告。该公司去年首次在AI模式中为部分查询引入了“赞助”结果，但新的广告格式显得更具侵入性。其中一种选项会在AI回复下方呈现一个赞助产品，直接回答诸如“有哪些低维护成本的方法能让家里香气宜人？”这类具体问题——例如，在AI回答下方出现一个空气清新剂的“赞助”结果，附带产品描述和图片。在谷歌的示例中，一旦用户滚动到该广告，它似乎会占据整个屏幕。谷歌还在试点一种广告格式，在搜索结果列表中突出显示赞助产品或服务。这一系列举措标志着谷歌搜索广告从“关键词匹配”向“AI智能推荐+对话式导购”的深刻转型。对于用户而言，这意味着搜索结果中的广告将更加“善解人意”，甚至主动推销；对于广告主和内容生态而言，AI生成的推销语可能削弱传统营销文案的价值，而聊天机器人广告则可能改变用户与品牌的互动方式。谷歌显然希望借助Gemini的能力，在提升广告点击率的同时，不破坏用户对AI搜索的体验——但广告与自然结果的边界是否会因此变得更加模糊，值得持续关注。

The Verge12天前原文

510

谷歌称AI代理替你花钱是“更有趣”的购物方式

新上线

在2026年I/O开发者大会上，谷歌推出了一项名为 **Universal Cart** 的新功能，旨在通过AI代理彻底改变在线购物体验。该功能基于 **Universal Commerce Protocol（UCP）**，这是一个与Target、Shopify、Wayfair和Etsy等主要零售商共同开发的开源标准，允许消费者在一个界面内从多个零售商处购买商品，同时保留各商家的忠诚度计划和信用卡等个性化数据。 Universal Cart 整合了来自谷歌生态系统的数据，包括 YouTube、Gmail、Gemini 和搜索，AI代理会在后台运行，提供购买建议、检测兼容性问题（例如CPU与主板不匹配）、提醒折扣信息，甚至自动切换信用卡以获取最优价格。谷歌广告与商务副总裁 Vidhya Srinivasan 表示，这些功能将使购物“更有趣”，其本质是减少从“加入购物车”到“结账”之间的摩擦，让购物流程近乎即时且高度个性化。这一举措标志着谷歌在 **代理式AI** 领域的进一步深入。AI不再仅仅是搜索工具，而是主动参与决策和执行的购物助手。对于零售商而言，更流畅的购物体验意味着更高的转化率和更低的购物车放弃率；对于消费者，则可能意味着更省时、更智能的购物过程。然而，这也引发了对隐私和消费者自主权的担忧：当AI代理可以代表用户花钱时，如何确保其行为符合用户的最佳利益？谷歌表示，用户将拥有最终控制权，但具体实现细节仍有待观察。总的来说，Universal Cart 代表了电商与AI融合的新方向，但“更有趣”的背后，是技术对消费行为的更深层介入。

ZDNet AI12天前原文

511

AI编码循环中的形式化验证门控：用结构约束替代模型智能

新上线

最严重的软件 bug 往往也是最无聊的。用户不应该能读取其他租户的数据——没人反对这一点，设计评审会上也没人替“Alice 读取 Bob 的记录”辩护，但**失效的访问控制**依然是 OWASP Top 10 的头号问题。这些 bug 之所以能上线，是因为规则被放在了系统错误的位置：它存在于 prompt 里、评审清单里、以及“每个未来的工程师——现在则是每次模型调用——都会记住这个不变式并正确应用它”的共享期望中。这个假设本就脆弱，而当 AI 生成绝大部分代码时，它彻底失效了。你可以做所有显而易见的事：把规则写进 `CLAUDE.md`，编写细致的系统 prompt，在 agent 指令里强调“授权**非常**重要”——这些都应该做。但当模型写完一万六千行代码后，真正的问题依然是：**你如何知道代码做了你想做的事？** 测试有帮助，但测试是经验性的，它们只检查你和模型记得写的那些用例，无法替下周别人添加的 handler 说话。作者想拉动另一根杠杆，其主张直截了当：**对于一大类生产软件而言，结构性反压比 agent 智能的渐进提升更有效**。现有模型已经能写出几乎全部代码，限制因素在于你是否能**知道**它们做了你想做的事——而这种认知来自于模型所编写的底层基质（substrate），而不是等待一个更聪明的模型。 ### 行为门控 vs. 结构门控大多数 prompt 级别的约束是**行为门控**：我们告诉模型“不要跳过授权”“校验输入”“使用共享辅助函数”。模型遵循这些指令的频率足以让它们有用，但失败的频率也足以让整个安排变得不稳定。行为门控依赖于模型记住规则、识别适用场景、抵抗局部上下文的引力，然后还要依赖人类评审者在整个代码库中维持同样的不变式。 **结构门控**则不同。编译器、类型检查器、测试运行器、linter、证明检查器——每一个都能针对眼前的制品给出一个具体的答案。这个答案并不完美，但它是真实的、可执行的。结构门控不依赖模型的短期记忆或善意，它直接检查代码的**结构属性**：类型是否匹配？引用是否有效？安全策略是否被违反？ ### Shen-Backpressure：将结构门控嵌入 AI 编码循环作者构建的工具和方法论 **Shen-Backpressure** 正是为了探索这一赌注。它通过一个运行中的 demo 展示其工作原理，并演示如何将同样的循环接入你自己的项目。核心思路是：在 AI 编码循环中引入**结构反压**——不是让模型“更聪明”地记住规则，而是让代码的底层结构自动拒绝违反规则的输出。例如，你可以定义一个“授权策略”作为结构门控：任何生成的代码如果试图绕过授权检查，编译器或静态分析工具就会报错。模型可以生成任意代码，但只要它触犯了门控，构建就会失败。这样，你就不再需要依赖模型在每次生成时都“记得”授权规则——规则已经固化在门控之中。 ### 为什么结构反压优于更聪明的模型？当前 AI 编码的瓶颈不是模型能力，而是**验证能力**。即使 GPT-5 能写出完美代码，你仍然需要一种方法**确信**它确实做到了。行为门控随着代码规模增长而指数级衰减：模型越写越多，上下文越长，规则越容易被稀释。而结构门控是组合式的：每个门控只检查一个局部属性，但它们的组合可以覆盖整个系统。当然，结构门控并非万能。它不能捕获所有语义错误，也不能替代良好的设计。但对于一类关键问题——如安全、类型安全、资源隔离——结构门控提供了一种比“让模型更听话”更可靠的路径。 ### 小结 AI 编码循环的未来不在于让模型更聪明，而在于**设计更好的门控**。Shen-Backpressure 代表了一种思路转变：从“教育模型”转向“约束模型”。当你不再期望模型永远正确，而是让代码的基质自动拒绝错误时，AI 编码才能真正走向生产级可靠。

Hacker News14412天前原文

512

用手机级激光雷达实现“隔墙观物”：低成本非视域成像新突破

新上线

**麻省理工学院媒体实验室（MIT Media Lab）的研究人员开发出一种新型非视域成像系统，仅依靠智能手机级别的激光雷达传感器，就能“看到”拐角后的物体轮廓。** 这项技术有望大幅降低自动驾驶汽车、机器人及安防设备中“透视”障碍物的成本门槛。传统的非视域成像系统通常依赖昂贵、高功率的飞秒激光器或单光子雪崩二极管（SPAD）阵列，设备体积庞大且成本高达数万美元。而MIT团队提出的方法，利用消费级激光雷达（如iPhone 12 Pro及以上机型搭载的LiDAR扫描仪）即可实现。其核心原理是：向拐角处的地面等漫反射表面发射激光脉冲，光线经反射后照射到隐藏物体，再次反射回的微弱信号被激光雷达捕捉。通过分析光子的飞行时间与空间分布，算法可重建隐藏物体的粗略形状。 **该系统的关键在于算法对噪声的鲁棒性。** 消费级LiDAR的信噪比远低于科研级设备，但研究人员通过多帧累积和时空相关性滤波，成功从噪声中提取出有效信号。实验显示，该系统能在1米范围内识别出约20厘米大小的人体模型或字母形状，分辨率虽不足以看清人脸细节，但足以判断“是否有人”或“大致动作方向”。 **应用前景方面，该技术可显著提升机器人导航的安全性。** 例如，扫地机器人可提前感知墙角后的障碍物或宠物，避免碰撞；自动驾驶汽车在十字路口或停车场可“预判”突然出现的行人或车辆。此外，在搜救场景中，无人机可借助此技术探测废墟后的生命迹象。 **当前局限与未来方向：** 系统目前仅适用于静态或慢速移动物体，且对场景光照条件敏感（强环境光会淹没信号）。MIT团队正尝试结合深度学习提升重建速度与分辨率，并探索与现有安防摄像头、扫地机器人等消费电子产品的集成方案。 **行业影响：** 非视域成像长期是计算机视觉领域的“圣杯”之一。以往受限于成本，该技术仅停留在实验室。此次用手机级LiDAR实现突破，意味着未来每台配备LiDAR的智能设备都可能具备“透视”能力，开启从消费电子到工业自动化的全新应用维度。

IEEE AI12天前原文

513

Ubuntu Core 26：不可变 Linux，安全可靠直到 2041 年

新上线

对于计划在欧盟销售物联网或边缘设备的公司来说，Canonical 最新发布的 **Ubuntu Core 26** 值得认真考虑。这款精简、不可变的 Linux 发行版专为边缘计算和物联网设备设计，提供长达 **15 年的长期支持**，并强化了安全性以应对欧盟《网络弹性法案》（CRA）等新兴法规。 ## 什么是 Ubuntu Core？ Ubuntu Core 是 Ubuntu 的嵌入式版本，它将内核、基础操作系统和应用程序全部打包为 **snap** 容器。这种设计实现了组件隔离、加密签名和安全的无线（OTA）更新，非常适合需要长期无人值守运行的设备，如工业控制器、机器人、数字标牌和 AI 边缘节点。 ## 主要亮点 - **长达 15 年的支持**：Ubuntu Core 26 将获得支持直至 **2041 年**，为关键基础设施提供长期稳定性。 - **安全合规**：每个组件都经过沙盒化和加密签名，通过测量启动链确保仅运行经过验证的代码。这有助于满足欧盟 CRA 对组件溯源、长期稳定性和可问责性的要求。 - **降低运维成本**：Canonical 声称新版本减少了设备配置的摩擦和成本，简化了大规模设备管理。 ## 行业背景随着欧盟 CRA 等法规的推进，物联网和边缘设备的供应链安全与软件完整性成为焦点。Ubuntu Core 的不可变架构和长期支持策略，为制造商提供了合规的捷径。Canonical 工程副总裁 Jon Seager 表示：“Ubuntu Core 26 继续为关键基础设施运营商提供满足 CRA、运行可证明的不可变边缘 AI 工作负载以及大规模安全管理设备所需的基础。” ## 总结对于追求安全、稳定与长期支持的物联网和边缘部署，Ubuntu Core 26 是一个极具竞争力的选择。其不可变设计、15 年支持周期以及对欧盟法规的契合，使其成为企业级应用的可靠基石。

ZDNet AI12天前原文

514

用AI智能体测试分布式系统：一场从“集成测试”到“索赔驱动”的范式迁移

新上线

分布式系统和有状态系统的测试一直是个棘手问题。传统的集成测试方法——写几个测试用例然后收工——在真实生产环境中能捕获的Bug只占很小一部分。Hacker News上最近一篇热门文章提出了一套新思路：用AI编码智能体（AI coding agents）来设计和执行“索赔驱动”（claim-driven）的测试，并给出了两个具体的Skill文件（SKILL.md）来实现这一流程。 ## 核心流程：Plan + Execute 这套方案由两个智能体技能协作完成：**Plan Skill** 负责设计测试计划，**Execute Skill** 负责执行。两者输出的产物是一份结构化的Markdown测试计划（plan）和一份发现报告（findings report）。报告包含**9种状态裁决**（9-state verdicts）以及明确的故障归属分类（SUT / Harness / Checker / Environment），评审者只需阅读这两份文档即可决定是否发布，无需重新运行任何测试。 ## 索赔驱动：从产品承诺出发与传统测试驱动开发（TDD）不同，这套方法的核心是“索赔驱动”（claim-driven）。测试计划从产品的**承诺**（claims）出发，为每个承诺生成假设，并编写以该承诺命名的场景，每个场景试图在一种故障条件下**证伪**（falsify）该承诺。文章强调：“一个以承诺命名的测试，比一个以设置命名的测试更难被削弱。” ## 模型 + 历史 + 检查器：不只是混沌对于一致性关键场景（如安全性、持久性、幂等性、隔离性、排序、成员关系等），每个场景还需绑定一个**抽象模型**（register | queue | log | lock | lease | ledger …）、一个**操作历史模式**、一个**命名检查器**（线性一致性、可序列化性、会话一致性、无丢失确认、恰好一次等），以及如何处理模糊结果（超时、未知提交、重试）。文章称这种组合为“混沌 + 模型 + 检查器，而不仅仅是混沌”。 ## 覆盖充分性作为可交付物测试计划以一个**覆盖充分性论证**（coverage adequacy argument）和一份**保守的置信度声明**（conservative confidence statement）结尾。计划会诚实地列出哪些场景未经验证，并论证已选场景足以支撑发布的理由。这改变了以往测试“做完就好”的模糊状态，让测试的覆盖边界变得透明。 ## 兼容性与复用性这套方法兼容主流的AI编码工具，包括 **Claude Code、Codex、Copilot CLI、Cursor、Gemini** 等——任何能阅读Markdown并运行shell的智能体都适用。同时，Execute Skill 会优先发现被测系统（SUT）已有的测试、runbook和故障注入脚手架，复用现有工具箱，而非从头发明。 ## 行业视角随着AI编码智能体在软件开发中的渗透率持续提升，将智能体用于测试——尤其是分布式系统测试——正在成为一个自然且强大的应用方向。传统测试工具（如Jepsen）虽然能发现深层Bug，但门槛高、自动化程度低。而AI智能体可以自动生成测试计划、执行并生成结构化报告，大幅降低分布式系统测试的准入门槛。 **不足与局限**：文章中的方案目前仍依赖人工评审最终报告，且智能体对测试计划的“覆盖充分性论证”质量取决于底模型的能力。此外，9种状态裁决如何定义、模型与检查器的选择是否完备等细节尚需更多实践验证。 ## 小结 “索赔驱动测试”为分布式系统测试提供了一种可落地、可复用的方法论，尤其适合与AI编码智能体结合。它从产品承诺出发，用模型和检查器强化测试的可验证性，并通过覆盖论证让测试边界透明化。如果你正在为分布式系统的测试质量发愁，不妨试试这套思路。

Hacker News9612天前原文

515

AI 标签系统生死攸关：SynthID 与 C2PA 迎来最大规模考验

新上线

随着深度伪造和 AI 生成内容泛滥，识别系统能否真正发挥作用成为焦点。近日，Google 在 I/O 大会上宣布，其隐形水印技术 **SynthID** 与开放溯源标准 **C2PA Content Credentials** 将迎来迄今为止最大规模的部署：Chrome 浏览器和 Google 搜索将直接集成验证功能，用户无需跳转即可检查图片是否携带 AI 标签。 ## 两大技术如何互补？ SynthID 是 Google 专为其 AI 模型（如 Imagen）生成的图像、视频和音频设计的 **不可见水印**，通过算法嵌入像素级信息，人眼无法察觉，但可通过专用工具检测。C2PA 则是开放标准，在内容创建时嵌入元数据，记录其来源、编辑历史及是否使用 AI 工具。两者各有侧重：SynthID 侧重“防伪”，C2PA 侧重“溯源”。 **关键升级点**： - Google 将验证界面统一，**同时检查 SynthID 和 C2PA 标签**，用户只需在 Chrome 或搜索中右键图片即可获取结果。 - 此前，SynthID 验证需上传至 Gemini 应用，C2PA 需使用独立验证门户，流程割裂。新方案大幅降低使用门槛。 ## 为什么说这是“生死攸关”的时刻？过去几年，AI 生成内容的真实度呈指数级提升，从教皇穿羽绒服到政客虚假演讲，深度伪造已造成实际社会危害。标签系统曾被寄予厚望，但 **普及率低、验证流程复杂** 导致效果有限。此次 Chrome 和搜索的集成意味着： - **覆盖数十亿用户**：Chrome 占全球浏览器市场份额超 65%，搜索更是信息入口。 - **统一入口降低摩擦**：用户无需学习复杂工具，一键即可验证。 - **倒逼内容平台跟进**：Google 的举措可能推动社交媒体、新闻网站等采用类似标准。 ## 挑战与局限尽管前景乐观，但技术并非万能： - **标签可能被移除**：水印和元数据在截图、压缩或转码后可能丢失，恶意行为者仍可规避。 - **生成式 AI 的“灰色地带”**：部分内容混合 AI 与人工编辑，标签的准确性存疑。 - **用户认知不足**：即使工具可用，公众是否养成验证习惯仍是未知数。 ## 行业协同是关键 Google 的举措是“内容真实性倡议”（CAI）和 C2PA 联盟的重要里程碑。此前 Adobe、微软等已支持 C2PA，但缺乏统一验证入口。此次 Google 将两大技术整合，**标志着行业从“各扫门前雪”走向协作**。 ## 小结 AI 标签系统正站在十字路口：要么证明自己能够遏制虚假信息，要么被证明是徒劳的装饰。Google 的这次大规模部署提供了最真实的试验场。未来几个月，我们将看到这项技术是否真能改变游戏规则，还是仅仅成为又一个“安全毯”。

The Verge12天前原文

516

如果谷歌都做不好AI智能体，那可能没人能行

新上线

多年来，科技公司一直承诺AI将为我们配备能干的个人助理，但实际交付的却更像一个懵懂的实习生。过去六个月，这一局面开始改变，很大程度上归功于开源AI智能体平台OpenClaw的病毒式传播。而在如今竞相追逐类似成功的顶级AI实验室中，谷歌似乎尤其具备大规模推广智能体的潜力。在2026年I/O大会上，谷歌发布了全新的AI智能体，涵盖信息收集、活动规划、收件箱与日历摘要等功能。这些智能体可在后台持续运行，并声称能无缝集成谷歌自有工具及第三方应用。同时，谷歌还扩展了开发者工具，并为搜索增加了更多生成式AI能力。部分功能本周即上线，其余将在未来数月内推出。谷歌的策略很明确：借鉴OpenClaw成功的部分特性，并借助其对用户数字生活的深度理解来放大这些能力。谷歌DeepMind CTO Koray Kavukcuoglu表示：“此前AI智能体更多停留在研究层面，今年它们将真正融入我们的生活。”OpenClaw自去年11月上线以来已吸引数百万用户，它让人们能通过WhatsApp和Telegram等日常应用与智能体对话，只要电脑保持开机，智能体就能在后台自主执行任务。谷歌的入场，或许意味着AI智能体从概念走向实用的关键转折。

The Verge12天前原文

517

全球最大数据中心计划落地犹他州：40,000英亩、9GW电力，居民与专家齐声反对

新上线

犹他州可能即将迎来全球最庞大的数据中心项目——**Stratos Project**，占地**40,000英亩**（约为曼哈顿面积的两倍多），规划电力容量高达**9GW**，几乎是该州2025年峰值电力需求的两倍。该项目由《创智赢家》投资人、风险资本家**凯文·奥利里**（Kevin O'Leary）主导，旨在确立美国在人工智能领域的全球主导地位，并服务于政府与科技承包商，以强化国家安全。然而，这一宏伟蓝图在专家和当地居民中引发了强烈反弹。**Box Elder County**的专员已于本月早些时候批准了该项目，但后续仍需获得环境和建筑许可，建设周期预计长达数年。奥利里与犹他州州长**斯宾塞·考克斯**（Spencer Cox）及参议员**斯图尔特·亚当斯**（Stuart Adams）在今年1月会面后，项目推进速度惊人，被奥利里形容为“铺上了红地毯”。 ### 环境与资源隐忧批评者指出，如此规模的数据中心将对当地环境造成不可逆的破坏。**水资源消耗**是核心矛盾之一：数据中心冷却系统需要大量淡水，而犹他州本就面临长期干旱和水资源紧张。有专家比喻：“这相当于试图用热风去冷却发热的散热器。”此外，9GW的电力需求将极大加重电网负担，可能影响居民和企业的正常用电。 ### 社区反弹与“NIMBY”情绪当地居民组织起来表达强烈反对，认为项目带来的就业与税收增长远不足以弥补生态和生活质量损失。**汉塞尔谷**（Hansel Valley）原本是农牧业和自然景观区域，大规模建设将彻底改变其面貌。居民在公开听证会上质疑项目的实际效益，并担忧长期健康风险。 ### 行业背景与战略意义 Stratos Project是当前AI算力军备竞赛的缩影。随着大模型训练和推理需求激增，超大规模数据中心成为各国争夺技术制高点的关键基础设施。奥利里直言：“这向中国和全世界表明，我们不是闹着玩的。”但此类项目往往面临“建设-反对-妥协”的循环，如何在技术野心与可持续发展之间取得平衡，是行业和政策制定者必须直面的课题。目前，项目虽获县级和州级政治背书，但环保审批和公共舆论仍是最大变数。若最终落地，它将刷新全球数据中心规模纪录，并成为AI时代资源博弈的典型案例。

The Verge12天前原文

518

台湾“一次性”无人机吸引欧美目光

新上线

台湾正加速扩张无人机产能，试图在俄乌冲突催生的全球军需市场中，扮演中国供应链之外的关键替代角色。其主打产品——低成本、可一次性使用的战术无人机——已引起欧洲与美国的浓厚兴趣。 ## 从“中国制造”到“台湾制造”的转场长期以来，全球消费级与中小型军用无人机市场高度依赖中国供应链，尤其是深圳的大疆创新在民用领域占据绝对优势。然而，地缘政治紧张与供应链安全考量，迫使欧美国家寻找“去风险”方案。台湾凭借成熟的电子制造业基础与半导体优势，成为备受关注的备选基地。 ## “一次性”无人机的战场逻辑所谓“一次性”无人机，并非指质量低劣，而是强调**低成本、可消耗、快速部署**的设计理念。在俄乌冲突中，双方大量使用商用改装无人机执行侦察、炮火校射甚至自杀式攻击任务，这些无人机往往在数次飞行后即损坏或被击落。台湾厂商推出的产品单价可低至数千美元，远低于传统军用无人机数百万美元的成本，且采用模块化设计，便于快速量产和战场更换。 ## 欧美订单与产能瓶颈据行业消息，多家欧洲防务公司已与台湾无人机厂商签订意向订单，用于边境监控与快速反应部队配备。美国方面则通过“国防授权法案”拨款，支持台湾提升无人机自产能力。不过，目前台湾无人机年产能仅数千架，而乌克兰战场月消耗量可达上万架。**产能爬坡与关键零部件自主化**（如飞控芯片、发动机）仍是最大挑战。 ## 前景与隐忧台湾发展无人机产业具备先天优势：ICT产业链完整、研发人才充沛、且与西方防务标准兼容度高。但同时也面临**政治敏感性**——大陆明确反对台湾参与任何形式的军事技术出口。此外，如何平衡民用与军用产能，避免过度依赖单一市场，也是厂商必须考虑的长远问题。总体而言，台湾“一次性”无人机正踩准全球军需转型的节点，但其能否真正成为欧美可靠的供应链支点，还需时间与政策共同验证。

IEEE AI12天前原文

519

Figure AI 人形机器人连续直播数日，网友直呼“看不够”

新上线

机器人初创公司 Figure AI 近日进行了一场持续数日的人形机器人直播，展示其最新型号 Figure 03 自主处理包裹的能力。这场原计划八小时的演示最终延长到近一周，吸引了大批科技爱好者围观，甚至有人将其比作“史蒂夫·乔布斯之后最伟大的产品演示”。 ## 直播内容与表现从 5 月 13 日开始，Figure AI 的机器人被部署在一条传送带旁，任务是对各种小包裹（包括纸箱和软包装袋）进行条码检查，并将条码朝下放置到传送带上。整个过程完全自主，无需人工干预。CEO Brett Adcock 在 X 上表示，团队的目标是让机器人连续工作八小时——而此前一次演示仅持续了一小时。他坦言“有很高概率出问题”，但实际表现远超预期，机器人不仅持续运行了数日，还一度与人类实习生展开“效率竞赛”。 ## 技术亮点：Helix 02 神经网络系统机器人依赖 Figure 自研的 **Helix 02** 神经网络系统，该系统支持全身控制和“长时程自主决策”。据官网介绍，机器人全身控制器基于超过 **1000 小时** 的人类运动数据训练，并在 **20 万个并行仿真环境** 中进行了模拟训练。Helix 02 完全在机器人本体的硬件上运行推理，无需云端支持。多台机器人之间通过网络通信，当电量不足（单次续航约 3-4 小时）或遇到软硬件故障时，它们可以自主请求同伴接替工作。 ## 行业视角与冷静思考这场直播在社交媒体上引发狂热，YouTube 评论区为机器人起名，公司也迅速推出相关周边产品。但评论提醒，即便最惊艳的机器人演示也只反映了真实能力的“窄窗口”。人形机器人在工业物流等场景的落地仍面临可靠性、成本和泛化能力等挑战。Figure AI 的演示虽展示了自主性的进步，但距离大规模商用仍有距离。 ## 小结 Figure AI 的直播不仅是一场技术营销的成功案例，也折射出公众对人形机器人的情感投射。在 AI 与机器人产业加速融合的当下，这类演示无疑为行业注入了信心，但理性看待进展、避免过度炒作，才是技术健康发展的关键。

Ars Technica12天前原文

520

机器人领域会有“ChatGPT时刻”吗？

新上线

自从ChatGPT横空出世，AI界便掀起了一股寻找各领域“ChatGPT时刻”的热潮。机器人领域也不例外，许多人期待一个类似的大模型突破能瞬间解决机器人技术的所有难题。然而，Agility Robotics联合创始人兼首席机器人官Jonathan W. Hurst和谷歌X前副总裁Hans Peter Brondmo在IEEE Spectrum上撰文指出：**不要指望一个魔法时刻来解决机器人问题——这需要大量的艰苦工作**。 ## 为什么“ChatGPT时刻”在机器人领域不适用？ ChatGPT的成功建立在海量文本数据和Transformer架构之上，其核心是语言模型的规模化。但机器人技术面临的是物理世界的复杂性——感知、控制、运动规划、硬件可靠性等问题，并非简单的“数据+算力”就能解决。Hurst和Brondmo认为，**机器人领域的进步更多是渐进式的，依赖硬件、软件和AI的协同进化**。 ## 机器人领域的真实进展尽管如此，机器人技术并非停滞不前。以Agility Robotics的Digit机器人为例，它在仓储物流领域已实现商业化部署，能够执行搬运、分拣等任务。这些进步来自长期的技术积累和场景适配，而非单一突破。同样，谷歌Everyday Robots（现已关闭）在拾取物体、开门等任务上取得了显著进展，但最终因商业化困难而终止。 ## 行业共识：工程挑战高于算法突破目前，机器人领域的核心瓶颈包括： - **硬件成本与可靠性**：机器人关节、传感器等硬件仍需降本增效。 - **泛化能力**：现有机器人多在受控环境中工作，真实场景的随机性难以应对。 - **安全与交互**：人机协作的安全标准和自然交互仍是难题。这些挑战决定了**机器人领域的创新更依赖系统工程，而非单一算法突破**。正如作者所言，期待一个“ChatGPT时刻”可能是一种误导，真正的突破需要跨学科协作和长期投入。 ## 结论：耐心比幻想更重要尽管大模型（如GPT-4、PaLM-E）已开始赋能机器人，使其理解自然语言指令，但距离通用机器人还有很长的路。**机器人领域的“ChatGPT时刻”或许永远不会以爆炸式的方式到来**，而是通过无数个微小进步累积而成。对于从业者和投资者而言，保持耐心、聚焦实际落地场景，才是更务实的态度。

IEEE AI12天前原文