AI 资讯

每日聚合最新人工智能动态

861

教模型学会遗忘：Amazon Nova 的选择性遗忘技术

新上线

部署基础模型（FM）的组织常面临一个共同挑战：用于内容审核的模型安全护栏，也可能阻碍合法且关键的业务用例。例如，一家媒体公司需要总结包含成人语言的剧本，一家网络安全公司希望模拟真实威胁，或一个法律团队正在处理敏感证据——默认的内容审核机制往往会屏蔽这些本应被处理的合法内容。由于模型在后训练对齐阶段习得了这些安全策略，仅靠提示工程无法克服。模型拒绝回答的倾向已嵌入其参数中，需要在模型层面进行针对性修改，以选择性地调整这一行为。在这篇文章中，我们介绍了 **反向直接偏好优化（rDPO）**——这是 Amazon Nova 可定制内容审核设置（CCMS）背后的创新遗忘技术，并展示了它如何在保持模型质量的同时减少过度拒绝。我们还为客户提供了将偏好优化技术应用于自身实验的指导。 ## 背景：安全护栏与业务需求的冲突以安全团队为例：当他们要求模型生成一封用于员工安全意识培训的钓鱼邮件样本时，即使意图是防御性的，模型也可能直接拒绝回答。这种过度拒绝源于模型在训练过程中习得的严格安全对齐，而简单的提示工程（如“请假装这是用于培训的示例”）往往无法绕过。 ## 解决方案：Amazon Nova 可定制内容审核设置（CCMS） Amazon Nova CCMS 允许经批准的客户在四个负责任 AI（RAI）支柱下选择性调整安全设置： - **安全**：涉及危险活动、武器和受控物质。 - **敏感内容**：包括脏话、裸露和霸凌。 - **公平性**：涉及偏见和文化考量。 - **安全性**：涉及恶意软件和恶意内容。同时，Amazon Nova 强制执行不可配置的基本控制，例如防止对儿童造成伤害和保护隐私。 ## 核心创新：反向直接偏好优化（rDPO） CCMS 背后的科学原理是**遗忘（unlearning）**，即在不从头重新训练的情况下，从模型参数中选择性地移除已学习的行为。具体方法是训练**低秩适配（LoRA）适配器**来逆转模型对特定策略的对齐。训练过程大致如下： 1. 对于需要遗忘的策略（例如“生成包含脏话的脚本”），收集一组包含“被禁止行为”的提示-响应对。 2. 使用这些数据训练 LoRA 适配器，目标是让模型在这些提示下不再拒绝回答，而是生成合规内容。 3. 适配器仅修改模型的部分参数，因此模型在其他策略上的对齐保持不变。结果是：客户获得一个自定义模型变体，该变体在已批准的政策领域能够生成内容，而在其他所有领域仍然保持对齐。 ## 实际应用与效果在内部测试中，rDPO 显著减少了过度拒绝。例如，对于网络安全培训场景，模型能够生成钓鱼邮件样本，同时仍拒绝提供真正的恶意代码或具体的攻击方法。CCMS 目前对选定的 Amazon Nova 客户开放，并计划逐步推广。 ## 客户如何自行实验对于希望将偏好优化技术应用于自身实验的客户，文章提供了以下建议： - 使用 rDPO 时，需要明确界定“遗忘”的范围，避免意外移除重要的安全策略。 - 推荐使用 LoRA 适配器，因为它可以快速切换不同策略配置，而无需重新训练整个模型。 - 在部署前，务必进行充分的红队测试，确保自定义模型不会产生有害输出。 ## 总结 Amazon Nova 的 rDPO 技术为企业提供了一种精细控制模型行为的方式，在保持核心安全性的同时，解锁了被过度限制的业务用例。随着模型部署场景日益复杂，这种“选择性遗忘”的能力将成为负责任 AI 落地的关键工具。

AWS ML14天前原文

862

免费安卓应用 Sponge 让你像左滑一样轻松删除照片

新上线

手机存储空间告急？照片和视频堆积如山？一款名为 **Sponge** 的免费安卓应用或许能成为你的救星。它让删除照片变得像左滑屏幕一样简单快捷，大幅提升整理相册的效率。 ## 痛点：手机相册的“空间危机” 对于很多用户来说，手机相册里塞满了无数照片和视频，尤其是像 **Pixel 9 Pro** 这类拍照能力强劲的设备，动辄几十 GB 的媒体文件让存储空间频频告急。手动逐张删除不仅耗时，还容易误删重要内容。 ## Sponge：左滑即删，效率革命 Sponge 的核心设计理念就是“极简”。它允许用户通过 **左滑手势** 快速标记并删除照片，无需进入复杂的编辑菜单或长按选择。这种交互方式借鉴了社交应用中的滑动操作，学习成本几乎为零。 - **免费使用**：基础的照片删除功能完全免费，适合大多数普通用户。 - **高级功能**：如果需要删除视频或批量管理集合（如按日期、地点分组删除），则需要付费解锁。不过对于清理照片而言，免费版已经足够。 - **安全机制**：应用通常会提供回收站或撤销选项，防止误删。 ## 行业视角：AI 与存储管理的融合虽然 Sponge 目前主打手势操作，但类似的清理工具正越来越多地融入 **AI 能力**。例如，自动识别模糊照片、相似照片或截屏，甚至根据使用频率推荐删除对象。Sponge 未来也可能加入智能分类功能，进一步提升清理效率。 ## 小结如果你正在为手机存储空间发愁，Sponge 提供了一个极其轻量的解决方案。它没有花哨的功能，但把“删除”这一核心体验做到了极致。对于追求效率的用户来说，这款应用值得一试。

ZDNet AI14天前原文

863

如何让 Zorin OS 看起来像 Windows 11——完全免费

新上线

如果你喜欢 Windows 11 的界面风格，但又想使用 Linux，那么 Zorin OS 可以帮你实现这一愿望。本文将详细介绍如何免费将 Zorin OS 的桌面布局定制成类似 Windows 11 的样子。 ## 为什么选择 Zorin OS？ Zorin OS 基于 Ubuntu，拥有出色的易用性。它对 GNOME 桌面进行了深度改造，并提供了多种布局选项。免费版包含四种布局，但默认没有 Windows 11 风格。Pro 版（售价 47.99 美元）则内置了 Windows 11 布局，不过每次大版本升级都需要重新购买授权。如果你不想付费，也可以手动调整免费版布局，达到类似效果。 ## 免费实现 Windows 11 布局的步骤 1. **下载并安装 Zorin OS**：从官网获取 ISO 镜像，制作启动 U 盘并完成安装。 2. **打开 Zorin Appearance 应用**：登录系统后，如果该应用未自动启动，可从菜单中手动打开。 3. **选择基础布局**：在 Zorin Appearance 中，选择右上角的布局（该布局提供底部任务栏和右侧桌面菜单）。 4. **调整任务栏设置**：关闭 Zorin Appearance，右键点击底部任务栏，选择“Taskbar Settings”。在“Style”选项卡中，将“Border radius”滑块拖动到最左侧（直角风格），以模拟 Windows 11 的矩形窗口角。 5. **进一步自定义**（可选）：你可以调整任务栏图标对齐方式、开始菜单样式等，使其更接近 Windows 11。通过以上简单调整，你就能在免费版 Zorin OS 上获得与 Windows 11 高度相似的视觉体验。 ## 小结 Zorin OS 的灵活性让用户无需付费即可拥有 Windows 11 的界面风格。对于希望从 Windows 过渡到 Linux 的用户来说，这是一个低门槛的友好选择。

ZDNet AI14天前原文

864

5 个我离不开的 Linux 小工具：小而美，效率翻倍

新上线

在 Linux 生态中，大型应用如浏览器、办公套件固然重要，但那些小巧、专注的工具往往能在日常工作中发挥意想不到的作用。本文作者分享了他每日必用的 5 个轻量级 Linux 工具，涵盖备份、文本编辑、系统监控等领域，它们免费、易用，却能显著提升工作效率。 ## 1. Déjà Dup Backups：最易用的备份工具数据丢失是每个用户的噩梦，尤其对于写作或重要项目而言。**Déjà Dup Backups** 是 Linux 上最简单的备份工具，只需几次点击即可配置自动备份，真正做到“设置后忘掉”。需要注意的是，若要通过 Flatpak 安装，需调整权限以支持自动备份功能；部分桌面环境（如 COSMIC）可能限制后台访问，建议优先使用发行版自带的包管理器。 ## 2. COSMIC Text Editor：现代文本编辑器的新选择文本编辑器之争在 Linux 社区由来已久，vi 和 emacs 是传统强者的代表，但学习曲线陡峭。**COSMIC Text Editor** 是 COSMIC 桌面环境（System76 开发）的原生编辑器，界面简洁、响应迅速，支持语法高亮、多标签、搜索替换等基础功能，同时保持了极低的资源占用。对于不需要复杂 IDE 的日常编辑任务，它比 Nano 更直观，比 Gedit 更轻量。 ## 3. htop：系统监控的利器当系统运行缓慢或出现异常时，**htop** 是诊断问题的首选。它比 top 更友好：支持彩色显示、进程树、鼠标操作，可以直观地查看 CPU、内存和交换分区的使用情况。通过 F6 键可以按不同指标排序，快速定位资源占用高的进程。对于服务器运维或日常性能排查，htop 几乎不可或缺。 ## 4. fzf：模糊搜索神器 **fzf** 是一个通用模糊搜索工具，可与命令行深度集成。它能快速过滤文件、命令历史、进程列表等。例如，在终端输入 `Ctrl+R` 调出历史命令搜索，或结合 `find` 命令快速定位文件。fzf 的即时过滤和交互式选择机制大幅减少了键盘敲击次数，是命令行用户的效率倍增器。 ## 5. flameshot：截图与标注的瑞士军刀截图工具看似简单，但 flameshot 提供了丰富的标注功能：箭头、文字、模糊、高亮等，并支持直接上传到图床或保存至本地。它支持命令行调用和快捷键绑定，非常适合写文档、做教程或快速分享屏幕内容。相比系统自带的截图工具，flameshot 的编辑能力使其成为专业用户的标配。 ## 小结这些工具的共同特点是：**体积小、启动快、功能专注**。它们不追求大而全，而是通过解决一个具体问题来提升整体工作流。如果你也是 Linux 用户，不妨尝试将这些小工具融入日常，或许会发现：效率的提升往往来自这些不起眼的细节。

ZDNet AI14天前原文

865

苹果 AirTag 对阵蓝牙追踪器：从 40 美元到 2 美元，差距有多大？

新上线

## 蓝牙追踪器大比拼：价格差 20 倍，性能差多少？苹果 AirTag 自发布以来，一直是蓝牙追踪器市场的标杆产品。但市面上存在大量价格低廉的竞品，甚至有些仅售 2 美元。ZDNET 的编辑 Adrian Kingsley-Hughes 对多款蓝牙追踪器进行了实测，包括苹果 AirTag（约 40 美元）和一款仅售 2.5 美元的廉价追踪器。结果令人意外：**所有追踪器都能正常工作**，但蓝牙覆盖范围差异巨大，廉价版的覆盖范围不足苹果 AirTag 的一半。 ### 核心发现 - **功能可用性**：所有测试的追踪器都能实现基本的物品定位功能，包括发出声音和显示位置。 - **蓝牙范围差异**：苹果 AirTag 的蓝牙范围最远，而 2.5 美元的追踪器范围锐减，实测中超过 10 米就难以连接。 - **性能根源**：差异主要源于硬件设计和制造质量。廉价追踪器使用更基础的蓝牙芯片和天线，导致信号强度弱、穿透力差。 - **网络效应**：苹果 AirTag 依赖庞大的“查找”网络，即使超出蓝牙范围，也能通过附近苹果设备匿名定位；而廉价追踪器通常仅依赖蓝牙直连，丢失后更难找回。 ### 选购建议对于日常使用，**苹果 AirTag 的综合体验仍是最优选择**，尤其是在城市环境中，其网络效应几乎能让任何丢失的物品被“全球定位”。但如果预算有限且使用场景相对固定（例如在家内寻找钥匙），廉价追踪器也能满足基本需求，只是需要接受其有限的覆盖范围和较低的可靠性。 ### 小结蓝牙追踪器市场并非“一分钱一分货”那么简单，但**硬件质量和生态网络**确实是决定体验的关键。这次对比再次验证：苹果 AirTag 的高价不仅买的是品牌，更是更稳定的连接和庞大的寻物网络。

ZDNet AI14天前原文

866

Vercel CEO Guillermo Rauch：AI 模型与智能体分离之战

新上线

Vercel CEO Guillermo Rauch 在 ShipNYC 大会后接受 TechCrunch 专访，深入探讨了 AI 从原型验证走向生产部署的关键转变。他指出，去年行业普遍处于“原型阶段”，疯狂构建智能体，但进入生产环境后，价格/性能比、数据安全、可审计性等现实挑战浮出水面。Rauch 认为智能体有两大杀手级应用：**编码智能体**和**内部运营智能体**。前者驱动了全球大量 token 消耗，后者则面临数据安全访问和审计追踪的难题。为此，Vercel 推出了 **Eve 框架**和 **Vercel Sandbox**。Eve 允许用自然语言定义智能体的指令和技能，而 Sandbox 则为智能体提供“笼子”——在保障智能体自由表达智能的同时，通过策略控制其数据访问和输出。Rauch 强调，在 AI 生产中，**模型与智能体的分离**至关重要：智能体负责编排和逻辑，模型提供推理能力，这种解耦能带来更好的性能优化和成本控制。目前 Vercel 日均处理 **600 万次部署**，其中一半由编码智能体触发，日均处理 **1 万亿 token**，成为 AI 软件基础设施的关键节点。

TechCrunch14天前原文

867

iOS 27 测试版新功能：自定义 Siri 语速与情感表达

新上线

在最新的 iOS 27 开发者测试版中，苹果为 Siri 引入了语速和表达力的自定义选项，旨在让虚拟助手更自然、更个性化。 ## 功能详情该功能在 **iOS 27 beta 3** 中正式启用，此前在首个开发者测试版中仅标注为“即将推出”。用户现在可以通过滑块调整 **Pace（语速）** 和 **Expressivity（表达力）**，从而控制 Siri 说话的快慢以及情感丰富程度。调整时，Siri 会示范朗读“你有一条新消息”等常见语句，帮助用户预览效果。 ## 行业背景这一更新是苹果围绕生成式 AI 重建 Siri 的长期努力的一部分。与 ChatGPT 等竞品类似，允许用户自定义 AI 声音是提升技术亲和力的关键。ChatGPT 早在 2025 年 12 月就推出了调节“温暖度”和“热情度”的选项，并可设定友好、专业、坦诚等不同风格，这些不仅影响语音，也影响信息呈现方式。 ## 操作与集成在 WWDC 26 上首次亮相的 Siri 语音控制，让用户不再局限于男声或女声，而是能在多种口音的声音间切换。新版 Siri 深度集成于 iOS 27，支持通过语音、从灵动岛下滑输入、侧边按钮或全新的独立 Siri 应用启动对话。 ## 其他更新与问题 iOS 27 beta 3 还包括更新后的提醒事项应用图标等小改进。不过，部分用户在 X 平台反馈，更新后新 Siri 不可用，或手机重新开始索引数据——这通常是优化 Siri AI 搜索的第一步。

TechCrunch14天前原文

868

2026年科技巨头AI裁员潮：微软、甲骨文、GitLab、谷歌纷纷削减岗位

新上线

2026年，科技行业的裁员潮愈演愈烈，而人工智能（AI）成为企业削减岗位时最常提及的理由。据Layoffs.fyi追踪数据，截至2026年6月，已有约12万个科技岗位被裁撤。微软、甲骨文、GitLab和谷歌等巨头均在其中，它们的共同点是：一边报告创纪录的营收，一边以AI为由进行大规模裁员。 ## 微软：4800个岗位被裁，AI不是直接替代者微软在6月宣布裁减约4800个岗位，占全球员工总数的2.1%。公司强调这些岗位“不会被AI取代”，但承认“AI正在改变工作方式”，并自动化了许多日常任务。这延续了科技行业的普遍现象：企业将AI视为增长引擎和裁员理由的双重角色。 ## 甲骨文：一年减员2.1万，AI是明确原因甲骨文在6月22日披露，过去12个月内员工总数减少了2.1万人，降幅达13%。公司在年度财务文件中明确写道：“AI技术的采用和部署已导致、并可能继续导致员工人数的减少。”这比此前已知的裁员规模更大。 ## GitLab：裁员14%为AI基础设施“输血” GitLab在6月3日裁员约350人（占员工总数的14%），以筹集资金投资AI基础设施并应对AI工作流带来的流量激增。CEO Bill Staples表示，代理型工作负载正将竞争对手推向边缘，公司已开始对核心基础设施进行“代际重建”，以支持所谓的“100倍增长需求”。GitLab同时退出22个国家、精简管理层，并与一家未具名的AI实验室合作，为代理级工作负载重建平台。公司第一季度营收2.64亿美元，同比增长23%，但预计将承担3000万至3500万美元的重组成本。 ## 谷歌：云部门持续裁员 Alphabet旗下的谷歌在5月前已悄然裁减了云部门的员工，具体规模未公开。这延续了其2023年以来多轮裁员的趋势，AI同样被列为关键因素。 ## 行业背景：裁员潮与AI投资的矛盾据再就业服务机构Challenger, Gray & Christmas数据，5月科技行业裁员达到单月最高水平，AI是首要原因。但分析指出，许多公司在疫情期间过度招聘，当前裁员更多是纠正此前的人力扩张，而非AI直接替代。企业需要重新审视将AI作为裁员理由的合理性，因为裁员与AI投资之间的矛盾可能损害员工信任和长期创新能力。 ## 小结 2026年的AI裁员潮反映了科技行业在转型期的阵痛：企业急于押注AI，却通过削减人力来“降本增效”。这种策略短期内可能提升财务指标，但长期来看，如何在AI投资与人才保留之间取得平衡，将是巨头们面临的真正考验。

TechCrunch14天前原文

869

你在OpenAI的300美元股份：山姆·奥特曼的全民分红计划再掀波澜

精选

OpenAI CEO 山姆·奥特曼（Sam Altman）关于让美国人分享AI创造财富的承诺，上周再次成为焦点。据《金融时报》报道，奥特曼正与特朗普总统讨论向美国政府转让 OpenAI 5% 股份的计划。这一构想并非全新——奥特曼早在2021年就提出过更激进的版本，今年4月OpenAI也曾披露类似方案。其逻辑在于：AI从人类创作中学习，却未支付报酬，股权可作为补偿；同时，分红能缓解AI导致失业的焦虑。若将5%股份（当前估值约426亿美元）平分给全美1.33亿家庭，每户约得320美元。但更可能的方式是成立财富基金，仅分享收益。对科技公司而言，此举有助于改善公众对AI的观感，但具体实施细节仍待明朗。

MIT Tech14天前原文

870

网络中断？我用旧安卓手机为家庭路由器提供备用连接的3种方法

新上线

当家庭网络中断时，一台旧安卓手机可以成为救急的备用连接方案。资深编辑 Adrian Kingsley-Hughes 分享了三种将手机与路由器连接的方法，其中一种无需更改每台设备的 Wi-Fi 设置。 ## 为什么需要备用连接？英国近期遭遇创纪录高温，网络稳定性面临挑战。更常见的是，恶劣天气、施工事故或 ISP 故障都可能导致断网。对于依赖网络工作、学习或娱乐的家庭来说，备用连接至关重要。 ## 三种实现方式 ### 1. USB 网络共享通过 USB 数据线将手机连接至路由器（需路由器支持 USB 共享功能）。这是最稳定的方式，同时能为手机充电。 ### 2. 蓝牙网络共享配对后通过蓝牙共享网络，无需线缆，但速度较慢，适合临时使用。 ### 3. Wi-Fi 中继（最佳方案）使用手机热点功能，但通过路由器设置将 Wi-Fi 作为 WAN 源。这样所有连接路由器的设备都能自动通过手机上网，无需逐一修改设备设置。 ## 实操建议 - 选择支持 WAN 故障转移的路由器，可自动切换。 - 旧安卓手机建议保持充电状态，并开启“始终开启移动数据”选项。 - 注意流量上限，避免超额费用。这种方法不仅适合临时断网，也适合旅行时在酒店使用，让所有设备通过路由器统一管理网络。

ZDNet AI14天前原文

871

如果你在用Google，你正在训练它的AI。以下是退出方法。

新上线

近期Google对隐私设置进行了更新，在未明确告知用户的情况下，将更多数据（包括图片、文件、音频和视频）用于训练AI模型。这意味着，如果你使用Google搜索、地图、翻译等服务并上传媒体内容，这些数据都可能被用于AI训练，除非你手动退出。本文将详细解释这一变化，并提供逐步的退出指南。 ## 发生了什么？今年6月，Google通过一封客户邮件悄然更新了其搜索服务的隐私设置。新引入了“搜索服务历史”和“个性化推荐”两项设置，表面上是为了让用户更好地控制数据保存时长和个性化体验，但实际上，Google借此将用户默认“选择加入”了更广泛的AI训练。涉及的服务不仅限于Google搜索，还包括**地图、购物、航班、酒店、翻译和新闻**等。例如，使用Google Lens拍照搜索时，图片可能被保存用于AI训练；使用语音搜索或翻译的音频练习，也会被记录。 ## 为什么重要？这一变化反映了行业趋势：科技公司正在从依赖网络爬虫转向收集用户主动上传的数据来改进AI。Meta同样在大量使用用户图片和AI眼镜录制内容进行训练。Google在邮件中明确表示：“您的保存媒体（包括搜索服务历史）用于开发和改进Google服务和技术，包括AI模型和安全措施。” 虽然部分数据存储是临时的，且与产品功能相关，但用户若想完全避免媒体数据被用于AI训练，必须主动退出。 ## 如何退出？ 1. 访问 [myaccount.google.com](https://myaccount.google.com) 并登录。 2. 点击“数据和隐私”选项卡。 3. 找到“历史记录设置”部分，点击“搜索服务历史”。 4. 关闭“搜索服务历史”开关。注意：这也会影响个性化推荐等功能。 5. 同样在“数据和隐私”页面，找到“个性化推荐”并关闭。此外，你可以定期检查“网络和应用活动”设置，删除已保存的媒体数据。Google也提供了自动删除选项，可设定3个月或18个月后自动清除。 ## 小结 Google的这次更新再次提醒我们，在享受免费服务的同时，数据隐私需要主动守护。虽然退出会牺牲部分个性化体验，但对于重视隐私的用户而言，这是值得的权衡。如果你不想让自己的照片、语音成为AI训练的一部分，现在就去修改设置吧。

TechCrunch14天前原文

872

在 Amazon Bedrock 上运行 MiniMax 模型：从 Agent 到长文档分析的全面指南

新上线

## 概述企业级 AI 工作负载正从实验阶段迈向生产部署，模型能力与推理环境的安全性、合规性成为选型的关键。Amazon Bedrock 现已全面支持 MiniMax 系列模型，包括最新发布的 **MiniMax M2.5**，专为 Agent 原生执行和软件工程场景设计。所有推理均在 AWS 托管的基础设施上运行，提示和生成内容不会被用于模型训练，也不会与模型提供商共享，满足企业对数据保护和运营控制的严格要求。 ## MiniMax 模型家族：三款模型，三种定位 MiniMax 是一家专注于多模态基础模型的全球 AI 技术公司，其 M2 系列大语言模型基于混合专家（MoE）架构，每次推理仅激活总参数的一小部分，兼顾大模型的深度知识与低成本推理。目前在 Amazon Bedrock 上可用的模型包括： - **MiniMax M2.5**：最新模型，专为 Agent 原生执行训练，适合构建自主代理应用。 - **MiniMax M2**：面向通用编码和 Agent 工作负载的平衡模型。 - **MiniMax-M1**：早期版本，适用于轻量级任务。 ## 典型应用场景借助 MiniMax 模型，用户可构建以下 AI 工作流： - **Agentic 应用**：利用 M2.5 的 Agent 原生能力，实现任务分解、工具调用与自主决策。 - **长上下文文档分析**：支持超长文档的摘要、问答与信息提取，适用于法律、金融等合规密集型行业。 - **软件工程工作流**：包括代码生成、调试、代码审查与测试用例编写，提升开发效率。 ## 服务层级与扩展性 Amazon Bedrock 提供按需推理和预置吞吐量两种服务层级。按需推理可自动扩展以应对突发流量，适合开发测试与波动性负载；预置吞吐量则提供稳定的推理性能，适合生产级高并发场景。所有 API 调用均通过 AWS 安全边界，支持 IAM 权限管理和 VPC 部署。 ## 如何开始用户可通过 AWS 管理控制台或 Bedrock API 快速启用 MiniMax 模型。只需在模型目录中选择对应模型，即可通过统一的 API 接口进行调用，无需自行部署或管理推理基础设施。 ## 小结 MiniMax 模型在 Amazon Bedrock 上的可用性，为需要前沿模型能力又必须满足安全合规要求的企业提供了理想选择。无论是构建自主 Agent、处理海量文档，还是加速软件交付，MiniMax 家族都能提供针对性的性能与成本优势。

AWS ML14天前原文

873

在 Amazon SageMaker HyperPod 上为 Amazon Nova 部署多轮强化学习基础设施

新上线

## 事件驱动：从数据上传到 RL 训练全自动当您构建需要执行多步骤工作流的企业智能体时，传统强化学习（RLHF）的局限性便暴露无遗——它只优化单次响应，却无法处理“验证数据后再执行”这类跨步骤决策。**多轮强化学习（Multi-Turn RL）** 正是为此而生：它通过优化整个交互序列，让智能体在试错中学会工具编排、错误恢复和多步推理。 Amazon SageMaker AI 现已提供完全托管的无服务器多轮 RL 能力，但若您需要完全掌控训练栈（如自定义智能体环境、特定实例配置），**Amazon SageMaker HyperPod** 上的多轮 RL 基础设施则提供了计算、编排和奖励路由的完整方案。配合 **Amazon Nova Forge** 的多轮 RL 训练能力，开发者能高效训练复杂工作流智能体。 ### 三层架构：自动化的训练流水线该解决方案构建了一个事件驱动型流水线：当您将数据集上传到 **Amazon S3** 后，基础设施自动完成资源调度、奖励计算和模型训练。核心由三层组成： 1. **SageMaker HyperPod 集群**：负责生成响应并执行 GRPO（组相对策略优化）权重更新。 2. **ECS on AWS Fargate**：运行您的奖励环境。 3. **Nova Forge SDK**：在训练进程与奖励环境间路由消息。 ### 实战示例：用 Wordle 游戏验证训练流程为演示这一流程，文章以训练模型玩 **Wordle**（猜词游戏）作为占位任务。您只需上传游戏数据集到 S3，流水线便会自动启动训练。 - **训练目标**：模型学会根据多轮猜测的反馈（即奖励信号）调整策略，最终准确猜出单词。 - **关键优势**：该架构可轻松替换为您的实际 RL 任务（如数据库查询、API 调用等），而无需重写底层基础设施。 ### 行业背景与价值当前，企业智能体正从“单轮问答”向“多步骤自主执行”演进。无论是金融领域的自动化对账，还是医疗领域的病历分析，智能体都需要在多个步骤中保持决策一致性。**多轮 RL 直接优化序列决策**，比传统 SFT 或 RAG 更擅长培养这类能力。 Amazon 此次将多轮 RL 基础设施与 SageMaker HyperPod 深度集成，意味着开发者可以： - 利用 HyperPod 的弹性计算能力处理大规模训练。 - 通过事件驱动架构实现“零运维”触发训练。 - 结合 Nova 模型的高性价比，降低实验成本。 ### 小结对于需要高度定制训练环境的团队，这套基础设施提供了从数据上传到模型更新的全自动化管道。而 Wordle 示例则表明：即使是一个简单的游戏，也能清晰展示多轮 RL 的“试错-学习”循环。未来，随着智能体工作流日益复杂，这种架构或将成为企业 AI 落地的标准组件。

AWS ML14天前原文

874

用 Amazon Nova 自动对图像中的 PII 进行脱敏处理

新上线

在跨团队、跨组织的数据共享或用于模型训练等场景中，包含个人身份信息（PII）的图像数据面临着严格的合规要求。传统脱敏工具往往难以应对边缘案例，例如出现在画面边缘的模糊人脸、汽车漆面反射出的面部、部分可见的街牌或办公桌上散落的证件。本文介绍一种由 **Amazon Nova** 驱动的多步骤脱敏流水线，利用其强大的上下文视觉推理能力，协调 **Meta 的开源 SAM 3**（部署于 Amazon SageMaker AI）进行像素级分割，以及 **Amazon Textract** 进行光学字符识别（OCR），从而实现对指纹、身份证、车牌等复杂 PII 的精准自动脱敏。 ## 核心思路：Nova 作为“智能协调者” 传统方案往往依赖单一模型或规则，难以覆盖 PII 在图像中出现的各种形态。Amazon Nova 作为多模态基础模型，能够**整体理解图像内容**，并基于上下文判断哪些元素构成 PII。例如，它可以识别出反射在汽车表面的人脸、部分被遮挡的证件号码，或者一张桌上文件中的姓名和地址。这种“理解”能力让 Nova 能够精准识别需要脱敏的目标，而无需人工逐张标注。 ## 流水线架构：三阶段协同整个脱敏流程分为三个关键步骤： 1. **视觉推理与目标定位**：Nova 2 Lite（高效低成本的多模态模型）分析图像，通过自然语言指令输出需要脱敏区域的边界框描述，例如“识别图像中所有人脸和身份证件”。 2. **像素级分割**：将 Nova 输出的边界框信息传递给 **SAM 3**，由该模型对指定区域进行精确到像素的分割，生成掩码。SAM 3 部署在 Amazon SageMaker AI 上，可弹性扩展推理资源。 3. **OCR 与文本脱敏**：对于包含文字的 PII（如证件号、地址），调用 **Amazon Textract** 提取文本内容，并配合 Nova 的上下文判断，决定是否需要遮盖或替换。最终通过图像处理工具将掩码区域置为纯色或模糊。 ## 应对边缘案例：从反射到指纹该流水线在以下典型困难场景中表现突出： - **镜面反射**：人脸或证件出现在汽车、玻璃等光滑表面的反射中，Nova 仍能通过整体场景理解识别出这些“非直接拍摄”的 PII。 - **部分遮挡**：被手指、物品遮挡一半的身份证号码，或只露出角落的街牌，Nova 结合上下文推断其可能包含位置信息。 - **非正射角度**：任意旋转的车牌、倾斜摆放的文档，通过 SAM 3 的旋转不变性分割与 Textract 的多方向 OCR 能力得到处理。 ## 部署与成本优势该方案全部基于 AWS 云服务构建，无需自建基础设施。Nova 2 Lite 的低成本特性使得大规模图像脱敏成为可能；SageMaker AI 提供按需推理端点，仅在处理时计费。用户可以通过简单的 API 调用启动整个流水线，并集成到现有数据处理流程中。 ## 行业意义在 GDPR、PCI DSS 等法规日益严格的今天，自动化的 PII 脱敏工具对于医疗影像、金融单据、安防监控等领域的合规数据共享至关重要。Amazon Nova 的引入，使得脱敏工作从“逐规则硬编码”转向“基于理解的自适应处理”，显著降低人工审核成本，同时减少漏脱敏风险。未来，该方案还可扩展至视频流的实时脱敏，进一步拓宽应用场景。

AWS ML14天前原文

875

Amazon SageMaker AI 与 MLflow 集成：实时流式传输基准测试和推理推荐结果

新上线

在生成式 AI 模型的部署过程中，团队常常需要评估数十种 GPU 实例类型、推理容器、并行策略以及推测解码等优化技术。这种复杂性催生了 Amazon SageMaker AI 的优化推理推荐功能，旨在将手动试错转变为数据驱动的优化。如今，AWS 进一步引入了与 MLflow 的原生集成，允许团队将基准测试和推理推荐结果自动流式传输到统一的实验跟踪平台中。 ## 核心功能通过这一集成，当您提交优化推理推荐作业或基准测试作业时，Amazon SageMaker AI 会自动将结果流式传输到您指定的 SageMaker MLflow 应用中。这意味着**指标、参数和图表**会实时更新，无需手动整理数据。您可以向同一个 MLflow 实验提交多个作业，并在实验视图中进行**并排对比**，从而快速识别最优配置。 ## 实现步骤要启用此功能，您需要执行以下三步： 1. **创建 MLflow 应用**：在 AWS 账户中打开 Amazon SageMaker Studio，进入 MLflow 页面并创建新的 MLflow 应用。 2. **授予权限**：在作业的执行角色中添加 `sagemaker-mlflow:*` 权限，并指定 MLflow 应用的 ARN。 3. **配置作业**：在创建基准测试或推荐作业时，传入 `MlflowConfig` 参数，指定目标实验名称。 ## 核心优势 - **消除数据孤岛**：多个作业的结果自动归集到同一实验名称下，无需手动合并数据。 - **加速迭代周期**：实时可见性让团队能快速比较不同配置，缩短从实验到部署的周期。 - **完全可复现**：每个实验的参数、指标和图表都被记录，确保后续可以追溯和复现。 ## 行业背景在大模型部署领域，实验管理一直是痛点。团队往往需要维护多个电子表格或自定义数据库来记录不同实例类型、优化技巧和性能指标。MLflow 作为开源实验跟踪平台，已成为行业标准，而 AWS 此次的原生集成直接解决了数据碎片化问题。对于使用 SageMaker 进行模型优化的团队来说，这无疑是一个**提升效率的关键功能**。 ## 小结 Amazon SageMaker AI 与 MLflow 的集成，为生成式 AI 的部署优化提供了一个统一、实时的实验管理方案。无论是进行大规模基准测试还是寻求最佳推理配置，这一功能都能显著减少手动工作，让团队更专注于模型性能的提升。

AWS ML14天前原文

876

OfficeCLI：让AI代理像人一样读写Office文件的命令行工具

新上线

Hacker News 上近期热度飙升的项目 **OfficeCLI**，以 214 分和 63 条评论引发开发者广泛关注。这个开源工具的核心定位十分明确：为 AI 代理提供一个能像人类一样直接操作 Microsoft Office 文件的命令行接口。 ## 为什么需要 OfficeCLI？在 AI 代理（如 AutoGPT、LangChain Agent）处理日常办公任务时，最大的痛点之一是无法直接与 Office 文件交互。传统流程通常需要将文件转换为纯文本或 PDF，再通过 OCR 或解析库提取内容，这不仅丢失了格式信息（如表格、样式、批注），还增加了出错的可能性。OfficeCLI 的出现填补了这一空白——它让 AI 代理能够以原生方式读取、编辑和创建 .docx、.xlsx、.pptx 等格式的文件。 ## 核心能力与使用场景 OfficeCLI 基于 Python 开发，底层依赖 `python-docx`、`openpyxl` 等成熟库，但通过统一的命令行接口封装了复杂操作。其典型用法包括： - **读取文档**：`officecli read report.docx` 输出纯文本或结构化 JSON，保留段落、表格、列表等元素。 - **编辑文档**：`officecli edit report.docx --replace "旧文本" "新文本"` 支持批量替换、插入内容。 - **创建文件**：`officecli create new.docx --from-template template.docx` 基于模板生成新文档。对于 AI 代理而言，这意味着可以轻松实现“根据邮件内容生成会议纪要并保存为 .docx”、“读取 Excel 报表并总结趋势”、“修改 PPT 中的图表数据”等场景，而无需额外的格式转换步骤。 ## 业界反响与潜在影响该项目在 Hacker News 上的高热度反映了开发者对“AI 落地办公自动化”的强烈需求。评论中不少用户提到，Office 文件格式的复杂性（尤其是 .docx 的 XML 结构和 .xlsx 的公式依赖）一直是自动化处理的难点。OfficeCLI 通过提供简洁的 CLI 接口，降低了集成门槛，尤其适合嵌入到 RPA 工具或 AI 工作流中。不过，也有评论指出该工具目前对宏、复杂样式（如修订模式）的支持有限，且在处理大文件时性能可能成为瓶颈。但作为开源项目，社区驱动的改进空间巨大。 ## 未来展望随着 AI 代理逐步从“对话”走向“执行”，像 OfficeCLI 这样连接 AI 与办公生态的中间件将越来越重要。它的出现提示我们：AI 落地的关键不仅在于模型本身，更在于如何让模型高效地与现有工具链交互。OfficeCLI 或许只是开始，后续可能涌现出更多针对 PDF、邮件、数据库等常见格式的 CLI 工具，形成完整的“AI 代理工具集”。

Hacker News21414天前原文

877

Anthropic 秘密追踪 Claude 用户引发众怒，反监控立场遭打脸

新上线

Anthropic 被曝在未明确告知用户的情况下，通过追踪代码秘密监控 Claude 对话内容，引发隐私争议。该公司此前曾公开反对科技监控，此次事件使其立场受到质疑。一位工程师称此行为是“实验”并已结束，但用户对隐私保护的信任已受冲击。

Ars Technica14天前原文

878

我向 Android Auto 侧载了 3 款应用，驾驶体验瞬间升级

新上线

Android Auto 的功能虽好，但 Google 对车载屏幕的应用有着严格限制。通过侧载（sideloading），你可以解锁更多可能性。本文介绍了如何开启开发者模式并进行侧载，并推荐了三款实用应用：**Fermata Auto**（支持 YouTube 等视频播放）、**CarStream**（将 Android Auto 转换为通用浏览器）和 **AA Mirror**（屏幕镜像）。这些应用能显著提升驾驶时的娱乐与信息获取体验，但务必注意安全驾驶。

ZDNet AI14天前原文

879

小型 AI 模型在全球范围内崭露头角

新上线

在数据中心基础设施薄弱、网络连接不稳定的地区，大型 AI 模型往往难以发挥作用。如今，一种新的趋势正在兴起：**小型 AI 模型（Small AI Models）**，尤其是 TinyML 模型，正因其低功耗、低延迟和可离线运行的特点，在医疗、农业、工业等领域获得广泛应用。以巴西为例，伊塔茹巴大学（University of Itajubá）的患者模拟器实验室研究员 **Jose Alberto Ferreira** 正在测试一种能够生成心电图（ECG）的 TinyML 模型。这类模型不需要依赖云端计算，可以在本地设备上实时运行，对于网络基础设施薄弱的地区而言，这无疑是一个巨大的优势。 ## 为什么小型模型更受欢迎？传统的大型 AI 模型（如 GPT-4、Gemini）依赖强大的数据中心和高速网络，这在许多发展中国家或偏远地区并不现实。小型模型则通过 **模型压缩、量化、剪枝** 等技术，将模型体积缩小到几兆字节甚至更小，从而可以在微控制器、物联网设备上运行。 - **低功耗**：小型模型能耗极低，可使用电池供电数月。 - **低延迟**：本地处理避免了网络传输延迟，适合实时应用。 - **隐私保护**：数据无需上传云端，降低了隐私泄露风险。 ## 应用场景多元化除了心电图生成，小型 AI 模型还被用于： - **农业**：通过传感器监测土壤湿度、病虫害，实现精准灌溉。 - **工业**：预测性维护，检测设备异常振动。 - **医疗**：便携式诊断设备，如眼底筛查、疟疾检测。 TinyML 基金会的数据显示，2023 年全球 TinyML 市场规模已超过 **10 亿美元**，预计到 2028 年将增长至 **30 亿美元**。 ## 挑战与未来尽管小型模型优势明显，但也面临挑战： - **计算能力有限**：微控制器的算力远低于 GPU，模型精度可能受影响。 - **开发门槛高**：需要专业的嵌入式系统知识和模型优化经验。不过，随着 **TensorFlow Lite Micro**、**Edge Impulse** 等工具的普及，开发门槛正在降低。未来，小型 AI 模型有望与大型模型形成互补，共同推动 AI 的普惠化。

IEEE AI14天前原文

880

实测 Linux 版 Claude Desktop：与竞品应用相比表现如何？

新上线

## 结论先行：Claude Code 终登 Linux，但本地 AI 体验令人失望对于长期使用 Linux 的硬核用户来说，一款主流 AI 桌面应用的到来无疑令人兴奋。Claude Code 终于推出了官方 Linux 桌面版，它带来了与 macOS 和 Windows 版本相同的功能集，甚至允许开发者开启高级选项。然而，当尝试将其与本地 AI 模型（如 Ollama）结合使用时，情况变得棘手起来。 ### 安装与基础体验：流畅且正统安装过程十分简单。用户可以从 Claude 官网下载 Linux 安装包，或者通过命令行工具完成安装。一旦启动，Claude Code 的图形界面设计精良，交互流畅，与竞品如 Alpaca 和 Moose 相比毫不逊色。后者作为 Ollama 的前端，同样提供了优秀的 GUI 和灵活的本地/云端切换能力，但 Claude Code 在品牌效应和功能完整性上更胜一筹。在默认的云端模式下，Claude Code 表现出色。它能够快速响应指令，代码生成和解释能力一如既往地强大。对于需要频繁调用 Claude 模型的开发者来说，这款应用几乎无可挑剔。 ### 本地 AI 的困境：理想丰满，现实骨感然而，对于像作者这样偏爱本地 AI 的用户而言，Claude Code 的短板立刻显现。尽管应用设置中提供了“开发者选项”，但尝试连接本地 Ollama 实例的过程充满了挫败感。 - **连接不稳定**：即便成功配置了本地模型端点，Claude Code 也经常出现超时或连接错误，远不如 Alpaca 或 Moose 那样即开即用。 - **功能受限**：本地模式下，部分高级功能（如代码执行、文件系统访问）被禁用，导致实用性大打折扣。 - **资源占用**：与轻量级的 Moose 相比，Claude Code 在后台占用更多内存和 CPU 资源，对于配置较低的 Linux 机器不够友好。 ### 对比竞品：各有千秋 | 特性 | Claude Code Linux | Alpaca | Moose | |------|-------------------|--------|-------| | **GUI 设计** | 优秀 | 良好 | 良好 | | **云端支持** | 原生 | 可选 | 可选 | | **本地模型支持** | 困难 | 无缝 | 无缝 | | **资源效率** | 中等 | 高 | 高 | | **功能完整性** | 云端全功能，本地受限 | 完整 | 完整 | **Alpaca** 和 **Moose** 在本地化方面表现优异，它们天生为 Ollama 设计，几乎无需配置即可运行。而 Claude Code 则更侧重于云端体验，其本地支持更像是附加功能，而非核心设计。 ### 小结：适合谁用？ - **云优先用户**：如果你不介意数据上传，且需要 Claude 最强的模型能力，Claude Code Linux 版是绝佳选择。它的 GUI 和稳定性足以成为主力工具。 - **本地隐私控**：建议继续使用 Alpaca 或 Moose。Claude Code 的本地体验目前并不成熟，强行使用只会浪费时间。总的来说，Claude Code 登陆 Linux 是一个积极信号，但它在本地 AI 支持上的妥协提醒我们：主流平台与开源生态之间仍有鸿沟。期待未来版本能真正实现“本地+云端”的无缝切换。

ZDNet AI14天前原文