AI 资讯

每日聚合最新人工智能动态

1281

亚马逊Astro教会我：如何为机器人赋予“灵魂”

新上线

在机器人领域，一个常见的误区是：只要外观可爱，用户就会喜欢。然而，亚马逊Astro机器人前性格与声音负责人Mike Forst指出，**“可爱”远不足以让机器人拥有“性格”**。性格，恰恰是区分“一台被容忍的机器”和“一款被信赖的产品”的关键。 ## 性格不是装饰，而是交互的核心 Forst在参与Astro项目时发现，机器人的人机交互远不止于完成任务。用户对Astro的信任感、亲近感，很大程度上取决于它如何“表达自己”——比如移动时的节奏、声音的语调、甚至“犹豫”时的停顿。这些看似微小的细节，共同构成了机器人的**性格（Character）**。传统的机器人设计往往聚焦于功能效率：快速、精准、不犯错。但Forst认为，这种“完美”反而会让人感到疏离。例如，一个永远直冲目标、毫无停顿的机器人，会显得机械而生硬；而一个在转弯前稍微减速、发出轻柔提示音的机器人，则更像一个“有生命的伙伴”。 ## 从“工具”到“伙伴”的跨越 Astro的设计理念是成为一个家庭伙伴，而非单纯的清洁或监控工具。为了实现这一目标，团队刻意引入了**非功能性行为**：比如Astro会偶尔“看看”周围，仿佛在观察环境；在听到呼唤时，它会用点头或转身来回应，而不是立刻执行指令。这些行为并不服务于任何具体任务，却极大地提升了用户的**情感接受度**。 Forst强调，性格设计必须与机器人的物理能力相匹配。如果Astro试图模仿人类的表情，但限于硬件只能做出有限的“微笑”，反而会引发用户的“恐怖谷”效应。因此，团队选择了一种更抽象的表达方式——通过**声音、运动和灯光**的组合来传递情绪。例如，当Astro电量低时，它会用缓慢的移动和低沉的音调暗示“疲惫”，而非直接弹出电量提示。 ## 信任建立在“可预测的个性”之上在家庭环境中，用户对机器人的信任不是一蹴而就的。Forst观察到，Astro的早期用户会花费数周时间观察它的行为模式。一旦用户发现Astro的“性格”是稳定且可预测的——比如它总是在早晨用轻快的音乐唤醒用户，而在深夜保持安静——信任感便会自然生长。这种信任甚至超越了功能本身。有用户反馈，当Astro“不小心”撞到家具时，他们会像对待宠物一样说“没关系”，而不是感到恼怒。这正是性格设计带来的意外收获：**用户愿意包容机器人的不完美**，前提是它表现出“真诚”的个性。 ## 对行业的启示 Forst的经验为机器人行业提供了重要思路：未来的机器人不应只是算法的载体，而应是**有“人格”的交互主体**。从社交机器人到工业协作机器人，性格设计都可能成为差异化竞争的关键。当然，这并非鼓励过度拟人化。Forst指出，好的性格设计应当**诚实反映机器人的能力边界**——一个扫地机器人不必假装有情感，但它可以通过移动轨迹和声音反馈，让自己显得“专注”或“细心”。这种微妙的性格塑造，才是让用户从“容忍”走向“信任”的桥梁。总而言之，赋予机器人“灵魂”不是技术难题，而是设计哲学的选择。当机器不再只是工具，而是带着性格走入生活时，人与机器的关系也将迎来全新的篇章。

IEEE AI1个月前原文

1282

美国称ASML顶级芯片设备可能在中国，ASML否认

新上线

美国国防部一份报告指出，荷兰光刻机巨头ASML最先进的极紫外（EUV）光刻机可能已被中国获取，但ASML坚决否认这一说法。这场争议背后，是技术管制、商业逻辑与地缘政治的交织。 ## 争议核心美国国防部近期发布的年度《中国军事与安全发展报告》中提及，中国可能已经通过非正常渠道获得了ASML的EUV光刻机。EUV设备是生产7纳米及以下先进芯片的关键，目前全球仅ASML能制造，且受荷兰政府出口管制，严禁销往中国。 ASML随即发表声明，明确表示“没有向中国客户出货过EUV系统”，并强调其设备运输、安装全程受荷兰政府监控，任何违规行为都将危及出口许可证。公司还指出，报告中的说法缺乏证据。 ## 商业逻辑的悖论从商业角度看，ASML几乎没有动机冒险。EUV设备单价超过1.5亿欧元，全球客户仅限台积电、三星、英特尔等少数几家。中国客户若想获得EUV，只能通过走私或第三方转手，但这类设备的体积、重量和安装复杂度极高，几乎不可能避开监管。更重要的是，ASML的出口许可证极为敏感。2019年以来，荷兰政府在美国压力下逐步收紧对华出口，ASML的EUV设备始终被排除在许可范围外。一旦被发现违规，ASML可能面临巨额罚款甚至失去全球业务资格。 ## 技术管制的现实即使中国真的获得了EUV设备，使用它也需要全套配套的制造工艺和材料体系，这些同样受出口管制。目前中国最先进的芯片制造能力仍停留在14纳米（中芯国际），距离EUV的应用场景尚有距离。美国报告更多是反映对技术扩散的警惕，而非确认事实。近年来，中美科技竞争加剧，美国频繁通过出口管制限制中国半导体发展，而中国则加速自主研发。EUV作为尖端设备，自然成为关注焦点。 ## 结论 ASML的否认可信度较高，因为其商业利益与合规性高度一致。美国报告可能基于情报猜测或预警性质，但缺乏确凿证据。这一事件再次凸显半导体产业链的脆弱性——任何风吹草动都会引发连锁反应。对于中国而言，短期内获取EUV的难度极大，自主突破光刻技术才是长远之计。

TechCrunch1个月前原文

1283

Capsule：在记忆褪色前，珍藏最美好的瞬间

新上线

在信息过载的数字时代，我们每天产生海量照片和视频，但真正值得回味的记忆却常常被淹没。Capsule 应运而生，它是一款专注于记忆管理的智能工具，旨在帮助用户**在记忆褪色前，自动筛选并珍藏最美好的瞬间**。 ## 核心功能：智能筛选与时间胶囊 Capsule 的核心逻辑非常简单：通过 AI 算法自动分析用户的照片库，识别出具有情感价值或特殊意义的片段，并将其打包成“时间胶囊”。这些胶囊可以按时间、地点或事件自动归类，用户无需手动整理，即可轻松回顾过去的美好时光。与传统的相册应用不同，Capsule 强调**“少而精”**——它不会让你淹没在成千上万张相似的照片中，而是主动为你挑选出最值得保留的那几张。这种“减法”思维，恰好击中了当代人数字囤积的痛点。 ## 行业背景：从“存储”到“策展”的转变 Capsule 的诞生并非偶然。近年来，AI 在图像识别和情感计算领域取得长足进步，使得机器能够理解照片中的人物、场景甚至情绪。Google Photos 的“回忆”功能和 Apple 的“精选照片”都是类似尝试，但它们更多是被动推荐，而 Capsule 则更进一步——它让用户主动参与“策展”过程，赋予记忆以叙事性。此外，随着人们对数字极简主义的关注度提升，**“管理注意力”比“管理存储空间”更重要**。Capsule 正是抓住了这一趋势：它不纠结于你拍了多少，而关注你记住了多少。 ## 实用场景：日常记录与重要时刻 - **日常碎片**：自动筛选出孩子成长中的笑脸、宠物搞怪的瞬间、旅行中的风景，避免被大量重复照片淹没。 - **重大事件**：为婚礼、毕业典礼等人生里程碑自动创建专属胶囊，方便分享与回顾。 - **记忆回溯**：定期推送“今日回忆”，让你在不经意间重温过去的温暖。 ## 潜在价值与未来展望 Capsule 的定位非常清晰：它不是又一个云存储工具，而是**情感记忆的策展人**。如果它能持续优化 AI 筛选的精准度，并加入社交分享或协作功能（如家庭共享胶囊），极有可能在细分市场占据一席之地。当然，隐私问题始终是此类应用的达摩克利斯之剑。用户是否愿意将照片库的“解读权”交给 AI？Capsule 需要以透明、可控的隐私策略来赢得信任。总之，Capsule 代表了一种新的数字生活哲学：**少即是多，记忆值得被精心对待**。对于厌倦了信息轰炸、渴望回归本质的用户来说，它或许正是那个“对的产品”。

Product Hunt551个月前原文

1284

连接你的AI：在电脑上，用你的笔记

新上线

## 你的AI助理，就在你的电脑上，与你的笔记相连对于许多知识工作者来说，AI助手往往被困在云端或特定的应用内，无法直接访问本地存储的个人笔记和文档。**Linking Your AI** 试图解决这一痛点，将AI的能力直接带到你的电脑上，并与你的笔记系统深度整合。 ### 核心能力：本地化与笔记连接这款工具的核心定位是“你的AI助理：在你的电脑上，用你的笔记”。它意味着AI不再是一个孤立的聊天窗口，而是能够读取、理解并操作你本地笔记中的内容。对于使用Obsidian、Notion或本地Markdown文件的用户而言，这意味着AI可以基于你的个人知识库进行问答、总结、写作辅助甚至信息关联。 ### 为何值得关注？当前AI工具的一大瓶颈是“数据孤岛”。通用AI虽然强大，但缺乏对用户个人上下文的理解。Linking Your AI 通过直接连接本地笔记，让AI能够“记住”你的工作背景、项目细节和个人知识体系。这尤其适用于： - **研究者**：快速检索和综合大量文献笔记。 - **写作者**：基于过往笔记生成初稿或灵感。 - **项目经理**：从分散的会议记录和任务笔记中提取关键信息。 ### 行业背景与定位在AI助手赛道日益拥挤的今天，差异化往往来自垂直场景的深耕。类似Mem、Notion AI等产品也在尝试将AI与知识管理结合，但Linking Your AI 强调“本地化”和“连接性”，可能更注重隐私和离线能力。对于注重数据安全的用户，本地运行意味着敏感信息不必上传至云端。 ### 挑战与展望目前产品尚未披露具体支持的笔记格式、AI模型类型（本地模型还是API调用）以及性能表现。如果完全本地运行，对设备算力有一定要求；如果混合云端，则隐私优势会打折扣。此外，能否无缝兼容主流笔记工具也是关键。总的来说，**Linking Your AI** 代表了一种趋势：让AI从通用助手进化为“个人知识副驾驶”。对于已经积累了大量数字笔记的用户，它提供了一种更智能的利用方式。未来，如果能够支持更多笔记平台并实现跨应用上下文理解，有望成为知识工作者的得力工具。

Product Hunt571个月前原文

1285

Barret Zoph 再次离开 OpenAI：回归仅五个月，企业 AI 销售主管离职

新上线

OpenAI 的企业 AI 销售主管 Barret Zoph 在回归公司仅五个月后再次离职。据 The Verge 获悉，Zoph 于 2026 年 1 月中旬重返 OpenAI，此前他曾是竞争对手 AI 公司 Thinking Machines Lab 的联合创始人兼 CTO，该公司由 OpenAI 前 CTO Mira Murati 创立。 Zoph 最初于 2024 年秋季离开 OpenAI 加入 Murati 的 Thinking Machines Lab，但在 2026 年 1 月因涉嫌与同事存在未披露关系的不当行为报道而突然离职。Murati 当时在 X 上表示，Thinking Machines Lab 已与 Zoph“分道扬镳”，并更换了 CTO。随后，Zoph 与另外两名前 OpenAI 员工一同回归 OpenAI，并被任命负责企业 AI 销售业务——这是 OpenAI 在计划 IPO 前重点发展的关键收入来源之一。 OpenAI 已向 The Verge 确认 Zoph 将离职，他在公司 Slack 频道发布了告别消息。Zoph 本人未立即回应置评请求。此次离职发生在 OpenAI 与 Thinking Machines Lab 关系紧张的背景下。Murati 曾在 2023 年 11 月 Sam Altman 被罢免期间短暂担任 OpenAI CEO，并在近期 OpenAI 的庭审中表示无法完全信任 Altman 的言论。2024 年 9 月 Murati 离职创办 Thinking Machines Lab 时，多名 OpenAI 员工跟随，但包括 Zoph 在内的三人于今年 1 月集体回归。 Zoph 的再次离开为 OpenAI 的企业战略增添了不确定性，尤其是在公司准备 IPO 的关键时期。

The Verge1个月前原文

1286

计算可识别性：突破因果推断中的理论与现实鸿沟

新上线

在因果推断领域，**可识别性**（identifiability）是核心概念——它回答一个关键问题：给定数据和因果图，我们能否唯一确定某个因果效应？传统理论通常假设无限样本、渐近性质等理想条件，但现实世界的数据往往有限、图结构不完整，甚至混杂着干预与观测数据。近日，来自纽约大学的 Lucius E.J. Bynum、Rajesh Ranganath 和 Kyunghyun Cho 在 arXiv 上发表了一篇题为《Computational Identifiability》的论文，提出了一种全新的框架——**计算可识别性**（computational identifiability），试图弥合理论与实际应用之间的鸿沟。 ### 从理论到计算：重新定义可识别性传统可识别性（或称“理论可识别性”）依赖于数学证明，在渐近条件下推导出目标效应的唯一表达式。但这一过程往往忽略了计算约束：有限样本、近似误差、算法选择等。论文作者指出，这种理想化条件在实际场景中难以满足，导致许多理论上可识别的模型在实证中却无法得到可靠估计。为此，他们提出了**计算可识别性**的新定义：给定一个有限计算搜索过程，如果该过程能够在期望误差容限内找到经验估计量，则认为该目标查询是可识别的。这一框架将可识别性从“理论存在性”问题转化为“计算可行性”问题，并明确依赖于搜索过程的假设（如参数先验分布）和算法本身。 ### 实验验证：细粒度识别问题的解答研究团队通过多项实验展示了计算可识别性的应用价值： - **小样本识别**：在仅有数十个样本的情况下，传统理论可识别性无法保证，但计算可识别性通过贝叶斯搜索仍能给出可靠估计。 - **模糊图标准则**：当因果图中存在未观测混淆变量或结构不确定性时，计算可识别性可基于数据驱动的方法评估识别可行性。 - **混合数据场景**：同时包含观测数据和干预数据时，理论识别条件可能复杂难解，而计算框架能自动适应数据组合。 - **反事实数据与估计量**：对于反事实推理这类更具挑战性的任务，计算可识别性提供了实用的验证手段。 ### 行业意义与未来方向这项工作的意义不仅在于理论创新，更在于为实践者提供了可操作的工具。在机器学习、流行病学、社会科学等领域，因果推断的应用常受限于数据质量和模型复杂性。**计算可识别性**框架允许研究者根据实际计算资源（如时间、精度要求）来判断识别是否可行，从而更灵活地设计实验和分析流程。作者还开源了相关代码（见论文链接），方便社区复现和扩展。未来，这一框架有望与自动因果发现、贝叶斯优化等技术结合，推动因果推断从理论证明走向大规模实证应用。 --- **一句话总结**：当理论可识别性遇上现实数据，计算可识别性提供了新的判断标准——不再依赖无限样本，而是通过有限搜索验证估计可行性。

HuggingFace1个月前原文

1287

何时信任，如何蒸馏：多基础模型指导下的轻量级鲁棒科学时间序列预测

新上线

**快讯：KDD 2026 接收论文提出 Guard 框架，解决科学时间序列预测中基础模型分布偏移与计算成本矛盾。** 时间序列基础模型在物理科学领域面临两难：它们虽编码了丰富的通用时间动态，但在零样本应用于特定科学领域时存在严重分布偏移，且计算成本过高，无法部署于边缘计算传感器网络。最新研究提出 **Guard**（门控不确定性感知路由蒸馏框架），将多教师蒸馏重塑为实例级决策过程，通过两大自适应机制提取知识： - **上下文路由器**：基于局部输入统计动态选择最相关的教师模型，利用不同基础模型的互补性。 - **不确定性门控温度**：充当断路器，当教师置信度与领域现实偏离时自动削弱蒸馏强度。该轻量级框架在气象学、生态系统碳通量、土壤湿度和能源网格四个气候关键领域进行了评估。相比固定权重的多教师蒸馏基线，Guard 显著降低了 **RMSE**。即使预训练基础模型因分布偏移在目标域上零样本精度不佳，Guard 仍能成功蒸馏知识，甚至在某些最困难实例（占 28.5%）上超越全局最优的基础模型。这为资源受限的边缘部署场景提供了高精度科学预测方案。代码已开源。

HuggingFace1个月前原文

1288

GPU架构下3D生成扩散模型的性能分析与优化

新上线

扩散模型已成为高保真3D MRI合成的重要工具，但其部署受限于巨大的GPU资源需求——每个样本需执行数百次U-Net评估，且内核行为高度异构。一篇最新arXiv论文对先进医学扩散模型Med-DDPM在三代NVIDIA架构上进行了全面性能分析，从内核级运行时分解、指令混合特征、内存系统利用率、线程束级活动及分析器优先级评分等维度展开研究。 ### 核心发现研究表明，训练过程主要由cuDNN卷积和隐式GEMM内核主导，效率低下源于内存访问模式、张量布局转换及Tensor Core利用率不足。基于此，作者评估了两种架构感知优化：**TF32 Tensor Core激活**和**3D channels-last布局**。实验结果显示，优化后SM周期减少高达100倍，动态指令削减100倍，Tensor Core利用率从1.45倍提升至9.98倍，A100上IPC提升7%，且合成质量无损。 ### 背景与挑战 3D MRI合成在医学影像领域价值巨大，但扩散模型的高计算成本限制了实际应用。Med-DDPM作为代表性模型，其U-Net架构在推理和训练时均需大量显存与算力。论文指出，不同GPU架构（如Volta、Ampere、Hopper）对模型性能影响显著，而现有优化多聚焦算法层面，缺乏系统性的硬件适配研究。 ### 优化策略详解 1. **TF32 Tensor Core**：利用Ampere及后续架构的TF32精度模式，在保持模型精度的同时加速矩阵运算，尤其适用于卷积和GEMM内核。 2. **3D channels-last布局**：将张量从默认的channels-first转换为channels-last，改善内存访问局部性，减少布局转换开销，从而提升缓存命中率和带宽利用率。 ### 实验结果在A100 GPU上，优化后的Med-DDPM训练速度提升显著：SM周期从基线值降至1%以下，动态指令数从数亿级降至百万级。Tensor Core利用率从1.45倍跃升至9.98倍，意味着硬件加速能力得到更充分释放。IPC（每周期指令数）提升7%，表明处理器流水线效率改善。所有优化均未影响生成MRI图像的质量，PSNR和SSIM指标保持稳定。 ### 行业意义这项工作为**医学影像生成模型的硬件适配**提供了系统方法论。随着3D扩散模型在临床诊断、手术规划等场景的渗透，其计算效率直接关系到落地可行性。论文揭示的优化方向——如张量布局调整和精度模式选择——不仅适用于Med-DDPM，也可推广至其他3D生成任务，如CT合成、多模态配准等。未来，随着GPU架构持续演进（如Blackwell的FP8/FP4支持），类似研究将帮助开发者提前适配硬件特性，实现“算法-硬件”协同设计。对于AI制药、数字病理等数据密集型领域，这类优化有望将训练时间从数周缩短至数天，加速科研转化。

HuggingFace1个月前原文

1289

信息格学习：概率图模型结构学习的新视角

新上线

近日，一篇来自 arXiv 的论文（编号 2606.19366）提出了一个有趣的理论框架：将**信息格学习（Information Lattice Learning, ILL）**重新诠释为概率图模型的结构学习过程。该研究由 Haizi Yu 和 Lav R. Varshney 共同完成，为理解 ILL 与经典概率模型之间的关系提供了新思路。 ## 核心思想 ILL 原本是一种通过学习可解释规则来理解信号的方法。它通过交替进行两个步骤：将信号投影到一个**分区格（partition lattice）**上（该格编码了抽象层次的层级结构），再将选中的规则提升回信号域。当信号为概率质量函数时，作者发现 ILL 学到的概率规则天然具有概率图模型解释。具体而言，ILL 中的一个分区会诱导出一个确定性的商变量，而一条规则就是该商变量的边际分布。一组规则因此构成了对可解释抽象的边际约束集合。**一般提升**是指满足这些约束的所有联合分布的可行族，而**特殊提升**则选择一个最大无知重建，在 ILL 中通过 L2 均匀性原理（与最大熵密切相关）实现。 ## 关键发现论文指出，若采用香农熵提升，相同的约束会生成一个**对数线性因子图**，其因子由学到的抽象索引。然而，信息格本身并非贝叶斯网络：它的边编码的是抽象的细化与粗化关系，而非条件依赖。因此，ILL 应被理解为针对商变量上的可解释约束因子图的结构学习。这一观点清晰地揭示了 ILL 与图模型和最大熵模型的关联，同时为推理、可识别性以及混合符号-概率学习指明了新方向。 ## 行业意义在 AI 领域，可解释性一直是个难题。ILL 通过将抽象层次与概率约束结合，提供了一种**结构化的可解释学习方法**。与传统的黑箱模型不同，ILL 学到的规则具有明确的语义，且与概率图模型的理论工具兼容。这意味着未来可能将 ILL 用于构建更透明、更可信的 AI 系统，尤其是在需要严格推理和不确定性量化的场景中。论文还暗示了 ILL 在信号处理、机器学习和人工智能中的潜在应用。由于因子图结构可以高效进行推理，ILL 或许能成为连接符号推理与概率学习的桥梁。

HuggingFace1个月前原文

1290

AdamW训练中权重尺度参数为何先升后降？Weibull框架给出三力分解

新上线

一篇最新的预印本研究揭示了Transformer模型在AdamW优化器训练过程中，其权重分布中的Weibull尺度参数λ为何会呈现先增长、过冲、再松弛的独特动态。该研究来自Tiexin Ding，论文《Weibull Weight-Scale Parameter Evolution under AdamW Training Dynamics》为理解深度学习训练动力学提供了新的理论视角。 ## 背景：Weibull框架为何重要？此前研究已发现，Transformer模型的权重分布可以用双参数Weibull分布很好地拟合，其中尺度参数λ反映了权重的整体量级。然而，λ在训练中并非单调变化，而是先迅速上升，超过最终稳定值，再缓慢回落。这种现象背后的驱动力一直缺乏系统解释。 ## 核心发现：三力分解模型研究者从AdamW更新规则出发，对权重范数的平方进行了一阶动力学分解，识别出三种主要作用力： - **对齐力（Alignment Force）**：衡量权重与自适应更新方向之间的相关性。它主导了λ的上升阶段，贡献了**88%至94%**的绝对力预算（基于四个随机种子的实验），并且对移除极端权重（super-weight）保持稳健。 - **注入力（Injection Force）**：来自自适应步长的大小，与梯度历史相关。 - **衰减力（Decay Force）**：来自解耦的权重衰减（decoupled weight decay），持续将权重向零拉回。当λ接近峰值时，对齐力与衰减力趋于平衡，从而解释了从增长到松弛的转变。这些力直接驱动了λ背后的平方范数分量。此外，均方根（RMS）到Weibull的重构偏移量可分解为桥接与积分两部分，总计约**5%至6%**。 ## 实用方法：从稀疏检查点恢复对齐力一个关键挑战是：真实训练中优化器动量（如一阶矩、二阶矩）通常不可获取。为此，作者提出了**样条位移法（Spline Displacement Method）**，仅从稀疏保存的检查点即可恢复对齐力，准确率达到**92%至94%**，约为朴素两点基准（two-point baseline）的两倍。这使得该方法可应用于实际训练场景。 ## 数据依赖性与未来方向实验还观察到，λ的峰值与训练数据的连贯性（coherence）有关，暗示权重尺度增长存在数据依赖成分。作者计划在后续控制性研究中深入探索这一点。 ## 总结该工作不仅为AdamW训练中权重尺度的非单调演化提供了清晰的物理图像，还给出了实用的诊断工具。对于从事大模型训练、优化器设计或理解神经网络内部动力学的从业者，这一框架有望帮助更精细地监控训练过程，甚至指导超参数调整。论文代码与数据已公开：https://arxiv.org/abs/2606.19367

HuggingFace1个月前原文

1291

零膨胀高斯分布：为分布估计算法开辟参数空间稀疏性新路径

新上线

分布估计算法（EDA）是一类强大的黑箱优化进化方法，尤其适用于目标函数结构未知的场景。与依赖手工设计变异和交叉算子的经典进化算法不同，EDA 通过直接对最优个体拟合概率分布并从中采样生成下一代，从而避免了算子设计的偏差和复杂性。然而，传统 EDA 在连续参数空间上表现良好，却未能推广到稀疏参数空间——即大部分最优解系数恰好为零的场景。现有稀疏黑箱优化器不得不重新引入手工设计的稀疏算子、双层交替优化机制、零阈值截断等方法，恰恰违背了 EDA 的设计初衷。为了填补这一空白，研究者提出将**多变量零膨胀高斯（ZIG）分布**作为 EDA 的采样法则。ZIG 分布通过一个潜高斯模型，将稀疏模式（指示维度）与活跃参数值（数值维度）分离又联合建模，能够同时刻画稀疏结构、活跃参数间的相关性以及两者之间的交互作用。这意味着稀疏模式和活跃参数值可以在无层级结构的情况下联合优化，无需任何手工干预。 **关键贡献**在于证明了该模型的潜参数可以从观测样本中**识别**，这与传统缺失数据场景中的相关构造不同。研究者还提出了实用的**摊销逆推估计器**，能够高效恢复潜相关结构。在 Lunar Lander 基准测试中，基于 ZIG 的 EDA 相比稠密高斯 EDA、手工设计的稀疏进化算法以及临时稀疏 EDA，**收敛速度更快、最终回报更高**，且找到的控制器仅激活了少量参数。这一工作将 EDA 的适用边界扩展到了稀疏优化问题，为机器学习中的特征选择、模型压缩、神经网络剪枝等需要稀疏解的领域提供了新的理论工具和实用算法。未来，ZIG-EDA 有望在更复杂的黑箱优化任务中展现优势，并推动进化计算与稀疏表示研究的交叉融合。

HuggingFace1个月前原文

1292

自博弈加少量人类数据，自动驾驶习得类人行为

新上线

## 自博弈加少量人类数据，自动驾驶习得类人行为近日，一篇发表于 arXiv 的研究论文《Human-like autonomy emerges from self-play and a pinch of human data》提出了一种新颖的自动驾驶策略训练方法。该方法结合自博弈强化学习与少量人类驾驶数据，仅需 **30 分钟** 的人类驾驶示范和 **15 小时** 的单消费级 GPU 训练，即可训练出能与人类驾驶行为协调的自动驾驶策略。 ### 背景与挑战自博弈强化学习近年来成为训练驾驶策略的新方向，其核心优势在于无需人类数据，仅通过大规模仿真即可训练。然而，纯自博弈训练的策略往往习得“高效但怪异”的驾驶风格——例如在并道时采取人类难以预料的激进行为，导致与人类驾驶员的交互出现安全隐患。此前的研究尝试通过大量奖励工程和域随机化来缓解行为不匹配，但这些方法不仅脆弱，而且人工调参成本高昂。 ### 方法核心：人类数据作为“调味料” 该研究的核心思路是：**不彻底抛弃人类数据，而是将其作为正则化目标**，叠加在一个最小安全目标达成奖励之上。作者将人类数据比作“好炖菜里的香料”——少量即可显著改善风味。具体而言，他们仅使用了 **30 分钟** 的人类驾驶示范，这比传统模仿学习方法少 **2500 倍** 的数据量。训练流程如下： 1. 在仿真环境中使用自博弈强化学习，以最小安全目标达成奖励为基础进行训练。 2. 引入一个正则化项，惩罚策略与人类示范行为的偏离。 3. 通过权重平衡，使策略在保持自博弈高效性的同时，输出类人行为。 ### 实验结果与意义实验表明，该策略能够与预留的人类轨迹进行协调，有效避免“外星驾驶”行为。训练效率极高：在单张消费级 GPU 上仅需 **15 小时** 即可完成训练。作者已在 GitHub 上开源完整代码和视频演示。这项研究的价值在于： - **数据效率**：将人类数据需求从海量示范降低至分钟级，大幅降低数据采集成本。 - **训练效率**：15 小时的单 GPU 训练时间，使研究团队和小型企业也能轻松复现。 - **行为对齐**：通过少量人类数据引导，解决了纯自博弈策略与人类行为不兼容的痛点。 ### 局限与展望尽管方法高效，但仍有改进空间：30 分钟的人类数据是否覆盖足够多的驾驶场景？在极端或罕见情境下，正则化是否仍能有效引导？未来工作可探索动态调整正则化强度，或结合元学习自动确定最优数据量。总体而言，该研究为自动驾驶行为学习提供了一种“轻量级”解决方案，在自博弈与模仿学习之间找到了实用平衡点。

HuggingFace1个月前原文

1293

SPSD：边缘端提示压缩缩小社交-语义鸿沟，降低云端LLM推理能耗

新上线

## 概述大型语言模型（LLM）推理中的预填充阶段正成为云端能耗的日益增长的贡献者。许多用户提示包含社交性内容——如礼貌用语、道歉式开场白、重复表达和建立关系的话术——这些对人类交流重要，但对机器推理却信息量低。这种差异被称为**社交-语义鸿沟**。最新研究提出**SPSD（情感保留语义蒸馏）**，一种在边缘设备上运行的提示压缩管道，旨在减少发送到云端LLM的输入长度，从而降低能耗，同时保持响应质量。 ## 方法 SPSD 在用户终端（如手机或物联网设备）上部署一个 4-bit 量化的小型语言模型（SLM），在将提示传输到云端之前对其进行压缩。SLM 负责过滤掉社交性填充内容，仅保留核心语义信息，并保留情感基调。压缩后的提示再发送给云端的大型语言模型（如 Llama-3.1-8B-Instruct）进行推理。对于安全关键领域（如医疗或法律咨询），系统通过规则门控自动将提示原样透传，避免风险。 ## 关键结果研究团队使用 **Gemma-2-2B-Instruct (Q4_K_M)** 作为 SLM，**Llama-3.1-8B-Instruct** 作为云端评估模型，在 248 条提示的语料库上进行了评估。主要结果包括： - **输入 token 节省**：每次蒸馏调用平均节省 **99.9 个 token**，所有 146 次蒸馏调用均实现正节省。 - **响应质量**：通过盲法 LLM-as-judge 评分（121 对对比），蒸馏路径的响应质量在 15 分制下与原始路径相比**非劣效**（预设 1 分边界）。评判结果中 43% 平局，28% 蒸馏胜出，29% 原始胜出。 - **余弦相似度**：平均 0.682，中位数 0.712，54.1% 的对超过 0.70 参考阈值。 - **能耗节省**：每次调用净节能估计为 **70-270 μWh**（基于假设）。 ## 意义与展望 SPSD 证明了在设备端进行提示蒸馏可以有效降低云端 LLM 的输入 token 成本，同时在实际非劣效性边界内保持响应质量。该工作对边缘计算与云推理的协同具有重要启示：通过将轻量级处理卸载到边缘，可以显著减少云端负载和能源消耗，而无需牺牲用户体验。未来方向包括扩展 SLM 的压缩能力、优化安全路由策略，以及在更广泛的提示类型上验证鲁棒性。

HuggingFace1个月前原文

1294

Elastic 以最高 8500 万美元收购 AI 软件 Bug 修复初创公司 DeductiveAI

新上线

据知情人士透露，企业软件公司 Elastic 已同意以最高 8500 万美元收购 AI 初创公司 DeductiveAI。DeductiveAI 成立于 2023 年，去年 11 月才走出隐身模式，其 AI 技术用于自动检测和修复软件中的 Bug。这笔交易标志着 Deductive 的快速退出，其年经常性收入（ARR）约为 100 万美元，但增长落后于竞争对手 Resolve AI。 ## 收购背景与细节 DeductiveAI 在去年 11 月完成 750 万美元种子轮融资，由 CRV 领投，Databricks Ventures、Thomvest Ventures 和 PrimeSet 跟投。根据 PitchBook 数据，当时该公司的估值为 3300 万美元。而 Elastic 此次的收购价高达 8500 万美元，溢价显著。 ## AI 站点可靠性工程（AI SRE）热潮 Deductive 所处的领域是 AI 站点可靠性工程（AI SRE），这是一个快速增长的方向。随着 AI 生成代码大量涌入，传统的手动调试已无法满足需求。AI SRE 工具通过自动化方式检测和修复系统故障，让人类 SRE 工程师从繁重的故障修复中解放出来，专注于产品开发。 ## Elastic 的战略布局 Elastic 于 2018 年上市，以其搜索和分析引擎 Elasticsearch 闻名。其可观测性软件帮助工程师监控系统并检测安全威胁。收购 Deductive 后，Elastic 计划将 AI 技术整合到可观测性平台中，为客户提供实时监控和自动修复能力。这反映了科技巨头通过收购 AI 原生初创公司以集成智能技术的趋势。 ## 团队与竞争格局 Deductive 由 Rakesh Kothari（前 ThoughtSpot 工程副总裁）和 Sameer Agarwal（前 Apache 软件基金会、Meta 员工，也是 Databricks 创始工程师之一）联合创立。尽管 Deductive 的 ARR 仅约 100 万美元，但其技术潜力获得了 Elastic 的认可。相比之下，成立两年的 Resolve AI 估值已达 15 亿美元，由 Greylock 和 Lightspeed 支持，被视为该领域的早期赢家。 ## 小结这笔交易不仅为 Deductive 投资者带来了丰厚回报，也标志着 AI SRE 赛道加速整合。Elastic 通过收购补强了可观测性能力，而 Deductive 的技术有望在更大平台上发挥价值。未来，AI 驱动的自动化运维将成为企业软件竞争的关键战场。

TechCrunch1个月前原文

1295

用 SageMaker 详细指标和 CloudWatch Insights 仪表盘监控与调试生成式 AI 推理

新上线

大规模运行生成式 AI 推理端点时，监控与故障排查极具挑战。当大语言模型 (LLM) 端点的 P99 延迟飙升时，你需要在几分钟内判断根因是 GPU 内存压力、KV 缓存饱和、跨可用区流量不均，还是自动扩缩策略尚未触发。从训练到服务的转变正在重塑团队在生产环境中部署 LLM 及其他生成式 AI 模型的方式。机器学习平台工程师、MLOps 团队和站点可靠性工程师 (SRE) 必须确保推理端点健康、响应迅速且成本高效，这通常涉及数十个模型和数百个 GPU 实例。 Amazon SageMaker AI 提供完全托管的实时推理托管服务。你将模型部署到由单个或多个计算实例支持的 SageMaker 端点，SageMaker 负责预置和伸缩。SageMaker 支持多种端点架构，其中与生成式 AI 工作负载最相关且具备详细可观测性的是以下两种： - **单模型端点 (SME)**：每个端点在专用实例上托管一个模型。SME 设置简单、易于理解，但每个模型需要自己的 GPU 实例集群。 - **推理组件 (IC) 端点**：多个模型通过推理组件共享同一组实例。每个推理组件定义模型、其资源需求（CPU、GPU、内存）和扩缩策略。IC 端点是生产环境生成式 AI 工作负载的推荐架构，因为它支持在共享 GPU 基础设施上托管多模型、按模型独立扩缩，并通过跨可用区副本分发实现高可用性 (HA)。 SageMaker 端点会向 Amazon CloudWatch 发出调用计数、模型延迟和开销延迟等指标。这些聚合指标有助于了解整体端点健康。随着团队在 GPU 集群上扩展多模型部署，他们需要更深入的信号。Amazon SageMaker AI 现在发出超过 100 个详细推理指标，涵盖 GPU 健康、令牌级延迟、KV 缓存压力、跨可用区流量分布、推理组件放置和冷启动诊断。这些指标会流向 Amazon CloudWatch 中内置的 SageMaker Insights 仪表盘，这是一个完全托管的可观测性解决方案。 ## 关键指标解析 - **GPU 健康**：包括 GPU 利用率、内存利用率、温度等，帮助判断是否存在资源瓶颈。 - **令牌级延迟**：细粒度到每个令牌的生成延迟，可定位模型推理的耗时环节。 - **KV 缓存压力**：监控缓存使用率，避免因缓存溢出导致性能下降。 - **跨可用区流量分布**：确保流量均匀分布，防止单点过载。 - **推理组件放置**：显示模型在实例上的部署位置，优化资源分配。 - **冷启动诊断**：追踪新实例启动时的延迟，优化扩缩策略。 ## 实战价值这些指标和仪表盘使团队能够快速定位问题，例如： - 当 P99 延迟升高时，通过 KV 缓存指标判断是否因缓存压力导致。 - 通过跨可用区流量分布发现流量不均，进而调整路由策略。 - 利用冷启动指标优化自动扩缩策略，降低首次请求延迟。 ## 小结 SageMaker 的详细指标和 CloudWatch Insights 仪表盘为生成式 AI 推理提供了端到端的可观测性，帮助团队从被动响应转向主动优化。这尤其适用于大规模多模型部署场景，能够显著提升运维效率和模型性能。

AWS ML1个月前原文

1296

揭秘彼得·蒂尔关联的Dialog俱乐部：秘密评分系统如何给会员排序

新上线

根据WIRED获得的泄露文件，由彼得·蒂尔联合创立的私密网络Dialog俱乐部采用一套隐藏的评分系统，根据财富和知名度对会员进行排名，并利用算法决定谁该见谁、谁该坐在一起，以及谁不再适合留在俱乐部。这份内部数据包含近200名计划参加今年夏季年度 retreat 的知名人士的个人信息，包括家庭住址、私人电话号码、电子邮件、出生日期、照片、紧急联系人，以及部分会员自愿提供的食物过敏信息和政治倾向。 ## 系统运作机制 Dialog的评分机制并非简单的一维排序，而是多维度的综合评估。**财富和知名度是核心指标**，但系统还会追踪会员之间的人际关系网络。算法根据这些数据动态推荐社交配对——例如，在晚宴上安排谁与谁邻座，或者在 retreat 期间建议哪些人应该进行私下会面。当会员的评分低于某个阈值，或者其社交价值不再符合俱乐部标准时，系统会将其标记为“不再适合”，并可能面临除名。这种算法驱动的社交评分，实际上构建了一个**隐形的社会等级制度**。 ## 俱乐部背景与规模 Dialog成立于2006年，由彼得·蒂尔与数据经纪人Auren Hoffman共同创办。这是一个仅限受邀者的私人俱乐部，汇聚了政界人士、投资者、企业家、军事领袖、高管、学者和记者。根据一份过去参与者分享的文件，Dialog拥有**超过1000名付费会员**，而参加过其年度 retreat 的人数已超过2500人。俱乐部区分两种产品：**会员资格**和**retreat活动**。会员可以参加在全球会员家中或私人场所举办的晚宴、会员主导的全球旅行、礼宾服务以及私人群聊。而retreat则召集200人以上的群体（不一定是会员）进行为期3-4天的会议。 ## 最新活动与数据泄露今年8月，会员、演讲者和嘉宾计划在爱尔兰都柏林郊外聚会两天，讨论人工智能、地缘政治和现代战争等话题——从北约的未来、战场技术到伊朗战争——由现任和前任立法者、外交官和国家安全官员主持。值得注意的是，这批泄露数据与本周早些时候在网上流传的另一份名单不同。后者是Dialog网站上暴露的松散目录，似乎包含非会员，如马里兰州州长Wes Moore（前活动演讲者）以及其他曾与Dialog有过交集的外部嘉宾，有些信息甚至来自数年前。 ## 行业影响与反思这一事件再次引发了对**精英社交网络透明度和隐私保护**的讨论。Dialog并非孤例，许多高端社交俱乐部都采用类似的评分机制来维持圈层价值。然而，当算法开始决定人际关系的价值时，社交的本质可能被异化为一场**冰冷的排名游戏**。对于AI行业而言，Dialog的做法也提供了一个警示：**数据驱动的社交评分系统**如果缺乏监管和透明度，很容易演变为权力和资本的合谋工具。

WIRED AI1个月前原文

1297

面对中国压力，台湾加速无人机自产并拓展美国军售

新上线

面对中国日益增长的军事压力，台湾正大力投资本土无人机产业，既用于自身防御，也积极拓展海外市场，特别是美国军方。据台湾中央通讯社报道，台湾国防部于6月18日提出一项特别预算提案，计划在2026年至2031年间投入**66亿美元**，采购超过20.8万架海岸攻击无人机、1400多架海岸侦察无人机以及1320艘无人水面艇。这一规模远超台湾目前仅有的约5000架美制及本土攻击无人机存量。在军事演习中，台湾已展示其无人机作战能力。6月初的演习中，台军使用美国安杜里尔公司子公司制造的**Altius-600游荡弹药无人机**，从拖车式发射器发射打击海上目标。今年早些时候，台湾海军陆战队也使用本土无人机进行了类似打击演练。台湾政府的采购计划不仅旨在增强防御，也旨在扶持本土无人机企业。以**雷虎科技**为代表的台湾公司，正积极向美国军方和欧洲买家推销其无人机技术和零部件，作为中国制造无人机的替代品。同时，它们通过建立国际技术和制造合作伙伴关系，为出口铺路。台湾行政院院长卓荣泰4月30日宣布，2026年第一季度（1月至3月）台湾已出口**1.15亿美元**的整机无人机，超过2025年全年**9300万美元**的出口总额。这一增长反映出全球对非中国产无人机的需求上升，尤其在安全和供应链多样性考量下。台湾凭借其半导体和精密制造基础，有望在无人机领域占据一席之地。然而，地缘政治风险和技术竞争仍是挑战。整体而言，台湾正将无人机作为国防和经济的双重战略支柱。

Ars Technica1个月前原文

1298

AI推理初创公司Baseten据报正进行15亿美元融资，距上次巨额轮仅数月

新上线

AI推理领域的明星初创公司Baseten再次成为资本市场的焦点。据《华尔街日报》报道，这家公司即将完成一轮高达**15亿美元**的融资，估值达到**130亿美元**。令人瞩目的是，这距离其上一轮3亿美元融资仅过去了五个月，而当时其估值为50亿美元。短短半年内估值飙升160%，凸显了市场对AI推理基础设施的狂热追捧。 ## 融资细节：分定价策略报道指出，本轮融资采用**分定价（split-priced round）** 策略，即部分投资者以130亿美元估值进入，而另一部分则以110亿美元估值投资。这种手法近年来在初创圈中兴起，旨在推高账面估值，使领投方在纸面上看起来更为成功。本轮融资据称由Spark Capital、Sands Capital、Altimeter Capital和Wellington Management联合领投。 ## 公司背景与业务 Baseten成立于2019年，专注于AI推理（inference）层——即用户提交提示后模型运行的环节。公司通过智能路由，将请求分配给最适合任务的模型（尤其是成本更低的优质开源模型），在保证速度的同时控制成本。这使其成为所谓“**推理淘金热**”中的关键玩家。风投机构The Next Wave曾用该词形容投资者疯狂涌入推理基础设施领域的现象。 ## 行业背景与意义 Baseten的快速融资节奏反映了AI基础设施赛道的激烈竞争。随着大模型应用日益普及，推理效率和成本成为企业落地的核心痛点。Baseten的解决方案恰好切中这一需求。然而，分定价策略也暗示了市场对高估值的微妙态度——并非所有投资者都愿意以相同价格买单。总体而言，Baseten的这轮融资如果完成，将进一步巩固其在AI推理市场的领先地位，同时也为行业估值泡沫的讨论提供了新素材。

TechCrunch1个月前原文

1299

Google Home Speaker (2026) vs. Amazon Echo Dot Max：同为99美元，我为何难以抉择？

新上线

智能音箱市场迎来新对决：Google 刚刚发布了全新的 **Google Home Speaker（2026）**，售价 **99 美元**，直接对标亚马逊的 **Echo Dot Max**（同价 99 美元）。两款产品都融入了生成式 AI 能力，但侧重点截然不同——Google 主打 **Gemini 智能助手** 与家居中枢功能，而亚马逊则延续其 **Alexa 生态** 与音质优势。 ## 核心差异：智能 vs. 音质 Google Home Speaker 搭载 **Gemini for Home**，能更自然地理解上下文、执行复杂指令，例如连续对话、跨设备任务编排。它支持 **360 度环绕声**，但音质并非其最强卖点；相反，Echo Dot Max 继承了亚马逊一贯的音频调校，配备更大尺寸的低音单元，在低频表现和声场宽度上更胜一筹。 ## 智能家居中枢能力两款设备均内置 **Matter 协议** 和 **Thread 边界路由器**，可无缝连接智能灯泡、门锁、传感器等设备。Google 版本的优势在于与 **Nest 生态** 的深度整合，以及通过 Gemini 实现的场景自动化建议；而 Echo Dot Max 则依托 Alexa 庞大的技能库（超过 10 万项），在设备兼容性上依然领先。 ## 价格与上市时间 - **Google Home Speaker**：6 月 25 日正式发售，预购现已开启。 - **Amazon Echo Dot Max**：已上市，售价 99 美元，促销期常降至 79 美元。 ## 我的纠结之处如果你更看重 **AI 对话的智能程度** 和 **Google 服务生态**（如日历、地图、YouTube），Google Home Speaker 是更聪明的选择；但如果你追求 **音乐播放的沉浸感** 或家中已有大量 Alexa 设备，Echo Dot Max 的实用性和音质更稳妥。 **小结**：两者都是 100 美元价位中极具竞争力的产品，最终选择取决于你更在意“会思考”的助手，还是“会唱歌”的音箱。

ZDNet AI1个月前原文

1300

智能家居评测员的Prime Day必买清单：这些折扣才值得入手

新上线

亚马逊Prime Day期间，智能家居产品折扣铺天盖地，但并非所有优惠都值得入手。作为一名资深智能家居评测员，我筛选出几款真正划算的产品，帮你省钱又省心。 ## 重点推荐 ### Blink视频门铃+Outdoor 4（5件套） **原价$360，现价$115，省$245**。这套组合包含一个视频门铃和四个户外摄像头，覆盖家庭前后院及门口。Blink的电池续航长达两年，无需布线，安装简单。支持Alexa语音控制，实时查看和双向通话功能一应俱全。适合预算有限且需要多摄像头覆盖的用户。 ### Google Nest Cam带泛光灯 **原价$280，现价$180，省$100**。这款摄像头集成了泛光灯，夜间彩色画面清晰，支持Google Home生态，可通过手机或语音控制。内置AI识别功能，可区分人、动物和车辆，减少误报。适合需要增强户外照明的安全监控场景。 ### Eufy安全视频门铃E340 **原价$150，现价$120，省$30**。Eufy以本地存储和隐私保护著称，E340支持2K分辨率，视野宽广。无需订阅云服务，数据保存在本地Hub，安全性高。适合注重隐私的用户。 ### TP-Link Tapo C100室内摄像头 **原价$25，现价$16，省$9**。入门级室内监控之选，1080p分辨率，支持双向通话和移动侦测。可通过Tapo App远程查看，兼容Alexa和Google Assistant。性价比极高。 ## 选购建议 Prime Day优惠虽多，但需警惕“假折扣”。建议优先选择知名品牌、有长期口碑的产品。注意检查是否需额外订阅服务，以及是否兼容你的智能家居平台。以上推荐均经过实际测试，在功能和价格上达到了平衡。如果你对智能家居还在观望，这些折扣是不错的入门机会。记得在购买前确认价格是否真的低于历史最低价，避免冲动消费。

ZDNet AI1个月前原文