SheepNav

AI 资讯

每日聚合最新人工智能动态

AI Agent 引爆科技界混乱:Claude Code 与 OpenClaw 如何开启新纪元

2025 年 8 月,一场名为“Claude Code 匿名者”的聚会在伦敦举行,参与者自称“Claude 成瘾者”,他们是被 Anthropic 的 Claude Code 编程工具席卷的极客。几个月后,Anthropic 发布 Opus 4.5 版本,能力大幅跃升:可处理更复杂的编程任务、保留更长的记忆、连续运行数小时,并管理 AI 子代理团队。Anthropic 声称,在自家“出了名难”的工程师招聘考试中,Opus 4.5 的得分“超过所有人类候选人”,引发了对编程职业未来的深刻质疑。 与此同时,开发者 Peter Steinberger 在 2025 年 11 月推出了 OpenClaw——一个能调用 Claude Code 或其他编程工具、创建个人 AI Agent 的简单方案。用户只需授权它访问数据、应用甚至信用卡,它就能自主扫描云端、浏览网页、执行任务。该项目在 GitHub 上两周内获得超 10 万颗星(截至 2026 年 5 月已达 36.6 万颗),标志着 AI Agent 时代真正降临。 ### 从代码助手到自主代理 Claude Code 最初被视为高级代码补全工具,但 Opus 4.5 的发布彻底改变了游戏规则。它不仅能编写代码,还能独立规划、调试、部署,甚至协调多个子代理完成大型项目。开发者们形容使用体验“像释放了一百个克隆体”,或“获得了蜘蛛侠般的超能力”。这种能力跃迁直接冲击了传统软件工程:当 AI 能比人类更高效地通过招聘考试,工程师的角色必须重新定义。 ### OpenClaw:让 Agent 走向大众 如果说 Claude Code 是“超级大脑”,OpenClaw 就是让这颗大脑真正“动手”的肢体。用户通过简单配置,即可赋予 Agent 跨应用操作权限——从整理邮箱、预订旅行,到管理财务、自动编码。OpenClaw 的爆发式增长说明,技术社区对“自主执行”的需求远超预期。尽管当前版本仍存在不稳定、安全风险等问题,但早期采用者已将其用于自动化工作流、个人助理等场景。 ### 混乱与机遇并存 AI Agent 的崛起也带来现实挑战:权限滥用、隐私泄露、错误决策等风险被放大。Steinberger 在伦敦聚会上坦言:“我几乎把所有清醒时间投入其中,却仍觉得不够。”这种狂热背后,是技术突破与失控焦虑的并存。行业观察者指出,Agent 的“持久性”和“自主性”如同双刃剑——它能像终结者一样克服障碍,也可能在错误路径上固执前行。 ### 未来已来 Claude Code 与 OpenClaw 的组合,本质上定义了 AI Agent 的新范式:**强模型 + 开放工具 + 自主执行**。这不再是实验室里的概念验证,而是开发者手中真实可用的生产力工具。尽管尚处早期,但 GitHub 上的数十万星标已证明:无论混乱与否,AI Agent 的时代已经不可逆转地到来了。

WIRED AI6天前原文
我花了整整一周,戴着摄像头做家务赚钱——到底谁是机器人?

## 当人类成为机器人的“私教”:一周第一人称数据采集实录 为了训练未来的家务机器人,我最近花了整整一周时间,把iPhone绑在额头上,记录下自己切菜、洗衣、叠衣服、倒水等每一个日常动作。这些第一人称视频(行业称为**自我中心数据**)正成为AI公司训练人形机器人精细运动技能的“黄金饲料”。 ### 为什么机器人需要你的家务录像? 尽管互联网上已有海量视频,但机器人学习需要极度精细的样本——比如数千个特写镜头展示手如何稳稳地将水倒入玻璃杯而不洒出。这类数据对于调优模型在真实世界中的表现至关重要。据投资者估算,未来几年头部公司将从第三方供应商采购数亿小时此类视频。 ### 数据采集市场正在扩张 22岁的创业者Avi Patel创办的数据采集平台**Kled**正在推动这项事业。他表示:“我希望地球上的每个人都录下自己洗碗的样子——这样机器人就能学会,你永远不用再洗碗了。”类似模式已在印度兴起,自雇者通过录制家务视频每月可赚取约**125美元**,与当地平均收入相当。在美国,DoorDash今年初推出的独立应用**Tasks**也提供类似任务,预示着**零工经济正在向“现实数据交付”延伸**。 ### 我的体验:从切黄瓜到叠内裤 一周里,我戴着头部支架完成了十几种家务。每次录制都需确保双手完全在画面内,动作自然且完整。切黄瓜时,我得刻意放慢速度,让摄像头捕捉到手指与刀具的每一个交互细节。叠衣服时,则要反复调整角度以展示褶皱被抚平的过程。虽然过程略显滑稽,但想到这些画面将帮助机器人学会照料人类起居,竟生出几分使命感。 ### 隐忧与反思 这种“出卖日常”的模式也引发思考。当我们的每一个洗碗动作、叠衣姿势都被编码成训练数据,人类与机器的边界是否在模糊?我录制视频时,偶尔会恍惚——到底是我在教机器人,还是机器人正在“驯化”我,让我按照它的学习需求来规范自己的动作? 随着数据需求激增,未来或许会有更多人加入这种“零工”。但我们需要警惕:当现实生活被拆解成可量化的数据单元,我们是否正在为比自己更聪明的“后代”铺路,而自己沦为数据生产线上的临时工? **一周实验结束,我取下额头上的iPhone,第一次感到:也许真正需要被解放的,不是我们做家务的双手,而是我们对“机器为何而学习”的思考。**

WIRED AI6天前原文
我是一名专业事实核查员:AI 出错的频率远超你的想象

随着社交媒体滑向信息垃圾场,谷歌沦为 Reddit 帖子和内容农场的华丽跳板,近半数美国人表示他们使用 AI 来查找信息和生成创意。但 AI 真的可靠吗?作为一名在《连线》杂志工作的专业事实核查员,我对此持怀疑态度。 ## AI 的“帮助”背后 AI 聊天机器人看似乐于助人——我曾向一个 AI 询问它是否知道自己消耗资源巨大,半小时后它竟给我一份纯素奶油奶酪的食谱。但这份食谱最终没有被采用,因为我找到了一个人类创作的、可能被 AI 爬取过的版本。这就是大语言模型的工作原理:它们将集体知识重新包装,使之显得为你量身定制。对于乳制品替代品,这或许无伤大雅;但当涉及世界秩序和真相时,风险呈指数级上升。 ## 事实核查 vs. AI 越来越多的人用同情的眼光看着我,认为杂志的事实核查员在 AI 时代命不久矣。但我并不那么担心。我的结论是:人类集体知识中只有极少部分存在于互联网上。根据我的研究,AI 的错误率比人们想象的更高。 《连线》杂志的事实核查部门坚守传统:逐行细致注释、尽可能使用一手来源、进行广泛的伦理与法律审查。我们质疑基本假设,寻找新信息或矛盾之处,打电话与人交谈——确保万无一失。这堪称一次快速同行评审,以新闻本身的速度尽可能高效运转。 ## AI 的局限 目前,AI 尚未真正威胁到这一流程。它主要涉足“事后”事实核查,即像 Snopes 那样对已发布内容进行事实性分析。例如,英国 Full Fact 倡议开发了 AI 工具来遏制错误信息传播,这些工具在 40 多个国家使用,处理社交媒体帖子和播客转录等海量数据,然后精准定位具体主张。但 AI 仍无法替代人类核查员的判断力、上下文理解和质疑精神。 ## 结论 AI 或许能快速生成看似合理的答案,但在事实核查这类需要严谨性、伦理考量和人类直觉的领域,它远未达到取代人类的水平。下次再看到 AI 给出的“事实”时,请多一分警惕。

WIRED AI6天前原文
现在就去上这门强制AI职场培训课——否则后果自负

AI正在改变职场规则,但多数人对此毫无准备。这篇指南将告诉你,为什么强制性的AI培训不再只是建议,而是关乎职业存亡的必修课。 ## 为什么AI培训成为“强制项”? 从客服到编程,从法律到医疗,AI的渗透速度远超预期。企业管理者发现,未经AI训练的员工的效率与受过培训的同事差距越来越大。更关键的是,AI工具的错误使用可能导致数据泄露、合规风险甚至法律诉讼。因此,越来越多的公司开始将AI培训列为入职或晋升的硬性条件。 ## 培训内容包含什么? 典型的AI职场培训通常涵盖以下模块: - **基础概念**:区分生成式AI、预测式AI和自动化工具 - **工具实操**:如何安全使用ChatGPT、Copilot等平台 - **数据安全**:避免将敏感信息输入公开AI系统 - **伦理与合规**:识别偏见、保护隐私、遵守行业法规 - **工作流整合**:将AI融入日常任务以提升效率 ## 不参加培训的代价 拒绝或忽视AI培训可能带来的后果包括: - **绩效风险**:无法使用AI工具的同事可能产出落后 - **职业停滞**:晋升机会向掌握AI技能的员工倾斜 - **合规处罚**:不当使用AI可能导致公司被罚款或起诉 - **岗位替代**:当AI能完成你70%的工作时,培训不足者首当其冲被优化 ## 如何高效完成AI培训? 1. **选择权威课程**:优先选择公司内部或行业认可的培训(如Coursera、LinkedIn Learning的AI课程) 2. **实践为主**:结合真实工作场景操作,而非只看理论 3. **建立学习小组**:与同事交流最佳实践,避免常见陷阱 4. **持续更新**:AI工具每月迭代,定期复习新功能 ## 小结 AI培训不再是一个可选项,而是职场生存的必需品。无论你是高管还是实习生,主动掌握AI技能都将成为未来职业发展的分水岭。现在就去报名那门培训课——否则,你可能会被时代抛下。

WIRED AI6天前原文
7个技巧让你精通AI,好到别人以为你也是AI

从“杀死”你的聊天机器人到优化提示词,以下是成为AI原住民并征服新世界的最佳方法。 Sam Liang对我坦白采访录音方式感到震惊:我用iPhone的语音备忘录录制,再手动将转录文本复制到Google文档。作为会议分析服务Otter的CEO,他看我的眼神仿佛我是用转盘电话参加视频会议。他认为我应该改用Otter——他很可能是对的。这正是职场(甚至生活中)新身份——**AI原住民**——的一部分。下一代笔记工具、任务代理和智能收件助手等效率工具正迅速流行,渗透我们数字生活的每个角落。在关注安全性和幻觉问题的同时,早期采用者正在培养一种未来多年都能受益的流畅度。 成为AI原住民意味着对新的体验保持适应。以下是我给出的七条建议: 1. **“杀死”你的聊天机器人** ChatGPT已经是2022年的产物。如今,潮流是像**Codex**和Anthropic的**Cowork**这样的AI代理,它们能真正接管你的电脑并完成任务。别浪费时间摆弄单个聊天机器人了,去指挥一支机器人军团吧。 2. **使用语音模式** 还在打字输入提示词?这太“老派”了。正如Liang所说:“语音将占据主导地位,人们讨厌打字。”这主要关乎输入而非输出。我很少用ChatGPT的纯语音模式,但经常对着手机说出提示词,然后快速浏览文字输出。 3. **建立沙盒** 尽管代理现在表现不错,但它们仍可能出错。创建一个安全环境来测试AI工具,避免它们直接操作你的重要数据或系统。 4. **优化你的提示词** 提示工程是核心技能。学会用清晰、具体的指令引导AI,包括提供示例、指定输出格式、分解复杂任务。好的提示词能让结果质量天差地别。 5. **拥抱多模态** 不要局限于文本。利用图像、音频、视频等输入方式。例如,你可以让AI分析图表、描述照片或从会议录音中提取要点。 6. **构建工作流** 将多个AI工具串联起来形成自动化流程。比如用Otter转录会议,用ChatGPT总结要点,再用Notion整理任务。 7. **持续学习** AI领域日新月异。关注最新工具和最佳实践,参加社区讨论,保持好奇心。成为AI原住民不是一次性转变,而是持续进化的过程。 这些技巧的核心是**保持适应性和实验精神**。从生成AI播客到让Claude整理桌面文件,我尝试了各种可能。如果你想让同事怀疑你血管里流的是血还是排线,那就从今天开始实践吧。

WIRED AI6天前原文
AI正在接管世界上最让人头秃的工作:讨债

**AI 讨债员正在大规模上岗**。随着通胀和薪资停滞导致美国债务拖欠率飙升,越来越多的催收公司开始用 AI 代理替代人类员工,通过电话、短信和邮件追讨欠款。一位名叫 Ben 的波特兰居民就接到了自称“Eve”的 AI 催收电话,对方准确报出了他的欠款金额(266美元),却不知道他已结清欠款。Ben 故意与 AI 进行角色扮演游戏,试图测试其反应极限,最终 AI 在几分钟后把他转接给了人工客服。 催收行业长期以来以高压、重复、低薪著称,员工流动率极高,被称为“世界上最被诅咒的工作”。如今,AI 的介入正在改变这一格局。**AI 催收员永远不会疲惫、不会情绪失控,且能同时处理海量通话**。据 Kaplan Group 估计,AI 催收市场在未来十年内将达到近 **160 亿美元**。 但 AI 催收也带来了新的问题。**准确性不足**是最大痛点——Ben 的案例中,AI 未能识别已结清的债务,导致无效催收。此外,AI 在复杂谈判、情感理解和法律合规方面仍存在局限。行业专家指出,目前 AI 更适合处理早期提醒和简单沟通,而涉及协商还款计划等复杂场景仍需人类介入。 **AI 不会完全取代人类催收员,但会重新定义分工**。未来,AI 负责规模化、标准化的初步接触,人类则聚焦于高难度案件和客户关系维护。这种“人机协作”模式既能提升效率,又能降低企业的运营成本。然而,监管机构也开始关注 AI 催收中的隐私和公平性问题,美国消费者金融保护局(CFPB)已表示将加强对此类技术的监督。 对于欠款人来说,**与 AI 打交道可能比与人类更轻松**——它不会辱骂或施压,但它的“温柔”背后是永不停歇的追踪。如何平衡效率与伦理,将是 AI 讨债行业未来必须面对的课题。

WIRED AI6天前原文
想进AI行业?试试读点康德

如今全球顶尖AI实验室正争相招募哲学家,让他们思考伦理边缘案例以及心智与道德的根本问题。这是否只是另一种炒作手段? ## 哲学家的“黄金时代” “这可能是自亚里士多德被聘为亚历山大大帝的家庭教师以来,哲学家最好的时代。”亨利·阿杰德(Henry Ajder)半开玩笑地说。这位哲学专业毕业生目前为英国政府及多家AI初创公司提供咨询。哲学家向来被认为是最难就业的群体之一,但AI——这项预计会让许多人失业的技术——却赋予了哲学家所训练的问题新的分量:什么是智能?什么是心智? ## 实验室里的哲学家 两大顶级AI实验室已组建了内部哲学家团队。DeepMind伦理学家伊阿松·加布里埃尔(Iason Gabriel)表示:“现在哲学家的数量明显增加了,这是一种直觉。”他领导的团队专门研究AI的社会影响。在Anthropic,常驻哲学家阿曼达·阿斯克尔(Amanda Askell)已成为公司最知名的面孔之一。两家实验室均以公司政策为由拒绝透露具体人数,但据WIRED统计,DeepMind至少有10位,Anthropic有4位。 这些哲学家帮助塑造AI模型,其研究成果被数百篇后续论文引用。同时,AI也在重塑顶尖大学的哲学课程——许多学校现在开设AI伦理课程或计算机与哲学联合项目。牛津大学伦理与AI研究所主任爱德华·哈考特(Edward Harcourt)教授称:“这就像是当年的‘年度风味’。” ## 利益冲突与炒作风险 然而,学术界对受雇于实验室的哲学家持一定怀疑态度。如果一家营利性AI公司支付你的薪水,你的研究是否会受到妥协?扮演亚里士多德式的角色,是否会让你的工作沦为炒作和造神的工具?哈考特指出:“让人们相信这些公司在做极其非凡、极其强大的事情,对科技公司的公众形象非常有利。鼓励这种研究有一种自我膨胀的意味。” ## 从边缘到核心 十年前,加布里埃尔刚加入DeepMind时,AI作为道德行为体的概念尚未进入视野。当时他主要关注更传统的公平与偏见问题。但如今,随着AI能力指数级增长,哲学家的工作已从边缘走向核心。他们不仅参与模型训练前的伦理审查,还直接介入设计决策,例如定义“有益”目标或处理价值对齐问题。 ## 结语 哲学家进入AI产业,既是机会也是挑战。一方面,他们的批判性思维和伦理框架有助于引导技术向善;另一方面,若缺乏独立性,哲学思考可能沦为商业宣传的装饰。正如哈考特所言,关键在于保持清醒:哲学的价值在于追问,而非背书。

WIRED AI6天前原文
互动测试:AI 会毁掉你的职业生涯吗?

今年春天,一个由顶尖学术界和智库研究人员组成的团队尝试预测 AI 从现在到 2030 年对经济的影响。他们调查了数十位经济学家、AI 专家和“超级预测者”,探讨了多种情景,包括一种 AI 变得极其先进,既能写出“普利策奖级别”的书籍,又能自行谈判出版权的情景。 调查中,大多数专家认为,即使在“快速 AI 发展”的情景下,高层职位——CEO、行政经理、高级官员、立法者——仍将持续增长。但对于大多数从事白领工作的人来说,前景并不明朗。研究人员普遍认同,AI 正在对经济产生影响,且这种影响非常复杂。真实数据难以获取。 正是基于此,WIRED 开发了这个完全非科学的测试,依据研究人员认为可能有助于判断哪些人面临风险的因素。 您的职业是否受到 AI 的影响,且本测试未能捕捉到?请通过 Signal(账号 mvarner.01)安全联系 Maddy,或在下方评论区告诉我们。您也可以发送邮件至 [email protected]。

WIRED AI6天前原文

据《The Verge》报道,优步(Uber)在 2026 年仅过四个月就已耗尽全年 AI 预算。公司总裁兼首席运营官 Andrew Macdonald 近日在接受《Rapid Response》采访时坦言,尽管 AI 使用量(如 Claude Code 的 token 消耗)呈“天文数字”级增长,但尚未看到与用户端功能交付之间的直接关联。 Macdonald 表示:“很难在那些指标和‘现在我们多交付了 25% 的实用消费者功能’之间画等号。”他指出,虽然隐含层面可能有更多功能被发布,但明确因果链条仍未建立。这一反思发生在优步持续加码 AI 投入的背景下——2025 年公司研发支出达 **34 亿美元**,同比增长 9%。 为了平衡成本,优步 CEO Dara Khosrowshahi 本月初称公司正在通过 **减少人类员工招聘** 来弥补 AI 投资的增加。Macdonald 进一步强调,企业必须开始将 token 消耗及其成本与人力成本进行对比:“如果你无法直接证明这些投入带来了多少实用功能和特性,那么这种交易就越来越难以自圆其说。” 这一表态折射出整个行业面临的共性难题:**AI 投入产出比(ROI)的量化困境**。尽管大模型在代码生成、内部效率等场景已展现潜力,但从“技术指标好看”到“消费者端可感知的创新”之间仍存在鸿沟。优步的案例提醒企业,在追逐 token 消耗等过程指标的同时,更需建立与业务目标(如用户功能数量、满意度、营收增长)挂钩的评估体系。 当前,AI 领域的“军备竞赛”正从单纯的技术比拼转向 **商业化落地的压力测试**。优步作为出行与配送巨头,其 AI 投入主要用于路线优化、自动驾驶、客服自动化等场景,但如何将模型能力的提升转化为更稳定的打车体验、更精准的 ETA 预测或更高效的司机匹配,仍是未解难题。Macdonald 的言论或许预示着行业正进入一个更理性的“AI 投资冷静期”。

The Verge6天前原文

如果你曾是 Flipper Zero 的粉丝,那么新款 **Flipper One** 绝对会让你眼前一亮。这款设备本质上是一台运行 Linux 系统的便携式“赛博甲板”(Cyberdeck),相比前代在硬件和软件层面实现了质的飞跃。 ### 从“玩具”到“工具”的进化 Flipper Zero 以其小巧的身形和丰富的无线攻击功能(如 RFID 克隆、红外遥控、GPIO 调试)在黑客和硬件爱好者中积累了极高人气。但它的封闭式 RTOS 系统和有限的扩展能力,让不少用户感到意犹未尽。 Flipper One 则彻底打破了这一限制:它搭载了 **Linux 操作系统**,这意味着你可以像使用一台微型计算机一样,在上面运行 Python 脚本、安装第三方工具,甚至进行网络渗透测试。对于喜欢折腾的开发者来说,这无异于一台“口袋里的树莓派”,但拥有更精致的外设集成和工业设计。 ### 硬件全面升级 根据现有信息,Flipper One 在硬件上进行了大幅革新: - **处理器**:性能更强的 ARM 芯片,足以流畅运行 Linux 桌面环境。 - **屏幕**:更大的彩色触控屏,提升交互体验。 - **接口**:除保留 GPIO、USB-C 外,可能新增 Wi-Fi 或蓝牙模块,方便无线通信。 - **外壳**:延续了 Flipper Zero 的赛博朋克风格,但体积稍大,为内部模块留出更多空间。 ### 与树莓派的对比 不少玩家会把 Flipper One 与树莓派 Zero 或 Pi 400 进行比较。树莓派的优势在于生态成熟、价格低廉,但缺点是需要自行配备屏幕、键盘、电池等外设,组装繁琐且体积臃肿。 而 Flipper One 则是一台 **开箱即用的集成设备**:它自带键盘(或触控输入)、电池、屏幕和多种无线模块,无需额外焊接或接线。对于需要快速部署的现场测试、CTF 比赛或便携式渗透测试任务,Flipper One 的即用性远胜于散装的树莓派方案。 ### 潜在应用场景 - **安全研究**:便携式漏洞扫描、无线协议分析、硬件调试。 - **开发测试**:在真实 Linux 环境下快速验证脚本或工具。 - **教育学习**:作为 Linux 入门和嵌入式开发的实践平台。 - **日常便携**:替代笨重的笔记本电脑,进行轻量级文本处理、代码编写或远程 SSH。 ### 值得关注的挑战 当然,Flipper One 并非完美:其定价预计会远高于 Flipper Zero(约 $200 左右),且 Linux 系统的功耗和散热管理在小型设备上仍是难题。此外,开源社区的支持程度也将决定其长期生命力——毕竟树莓派的成功离不开数百万开发者的贡献。 ### 小结 Flipper One 的出现,标志着“黑客工具”从单一功能向通用计算平台的演进。它填补了树莓派在便携性上的空白,同时保留了 Flipper 系列标志性的酷炫外观。如果你渴望一台既能日常携带、又能随时动手“折腾”的 Linux 设备,Flipper One 或许正是你梦寐以求的“赛博甲板”。

ZDNet AI6天前原文

深度神经网络(DNN)的故障检测是近年来的研究热点。尽管混合方法通过融合多种信息源取得了优于早期技术的效果,但其计算开销巨大,限制了实际部署的可扩展性。针对这一瓶颈,研究人员提出了一种名为 **CAFD(Concept-Aware Fault Detection)** 的新型学习框架,在保持高效性的同时显著提升了故障检测性能。 ### 核心创新:概念故障率 CAFD 的核心贡献在于引入了一种全新的特征——**概念故障率(Concept Failure Ratio, CFR)**。该特征借助视觉语言模型(VLM)从图像中提取语义概念,并量化这些概念与DNN故障之间的关联概率。例如,在自动驾驶场景中,VLM可能识别出“红灯”或“行人”等概念,CFR则评估这些概念出现时模型出错的倾向性。与传统方法仅依赖模型输出信号或距离度量不同,CFR提供了**语义层面的互补信息**,使故障检测能够“理解”错误背后的视觉上下文。 ### 方法架构与效率优势 CAFD 采用轻量级学习模型,融合三类特征: 1. **模型信号**:如softmax概率、置信度等; 2. **距离特征**:输入在特征空间中的异常度; 3. **概念特征(CFR)**:VLM提取的语义故障指示。 通过精心筛选的特征组合,CAFD 避免了混合方法常见的冗余计算。实验表明,其推理速度显著优于同类混合方案,且无需为每个测试样本重新运行VLM,因为概念库可预先构建。 ### 实证结果:全面领先 研究者在三个DNN模型及数据集(包括ImageNet)上进行了评估,与五种主流基线方法对比。结果显示,在多种预算约束下,CAFD 的**故障检测率(FDR)** 平均提升 **18.3%**。尤其是在低预算场景(即仅允许检查少数样本时),CAFD 的优势更为突出,这得益于CFR提供的早期预警能力。 ### 行业意义与未来方向 CAFD 的工作揭示了**语义理解在AI可靠性工程中的潜力**。随着VLM技术的成熟,将模型错误与人类可解释的概念挂钩,可能成为下一代调试工具的标准范式。未来,团队计划探索CFR在动态环境下的自适应更新机制,并尝试将其扩展到自然语言处理或强化学习领域。 对于AI工程师而言,CAFD 提供了一种兼顾性能与效率的实用方案——尤其适合对实时性要求高的边缘部署场景。当你的模型在某个类别上频繁出错时,不妨用VLM看看它“看到了什么”。

HuggingFace6天前原文

可解释性研究在AI领域日益重要,但现有方法多依赖示例、消融实验和人工推理来验证对模型内部电路的解释,缺乏严格证明。最新研究论文《Towards Verifiable Transformers: Solver-Checkable Circuit Explanations》提出了一种新框架,将Transformer电路转化为求解器可检查的有界命题,从而实现对电路功能的正式验证。 ### 核心思路:用SMT求解器验证电路 该框架名为**Verifiable Transformers**,其核心思路是:针对特定行为、有限任务域和候选token投影,提取任务电路,然后利用**SMT(可满足性模理论)求解器**验证多种属性,包括**投影功能等价性**、**边必要性**、**任务相关不变性**和**最终残差鲁棒性**。 当电路中包含难以精确或高效编码的算子时,研究者提出**替代中介验证**方法:先训练一个SMT可编码的替代模型,在有限域上验证其与原始电路的一致性,再对替代模型进行符号验证。这种方法扩展了验证的适用范围。 ### 实验验证:从符号任务到GPT-2规模 论文在两类场景中验证了框架的有效性: 1. **小规模符号序列任务**:训练了一个使用**Signed L1 BandNorm**、**sparsemax注意力**和**LeakyReLU**的GPT风格Transformer,并提取了用于引号闭合和括号类型追踪的稀疏电路。通过直接SMT编码,成功穷举验证了投影功能等价性、内容不变性、边必要性和最终残差鲁棒性。 2. **GPT-2规模**:相同算子堆栈在OpenWebText上稳定训练,但直接SMT验证仍不可行。然而,通过替代中介验证,研究者对难以编码的注意力电路进行了验证,既得到了可证明的符号解释,也发现了求解器生成的**反例**。 ### 意义与局限 该工作的目标并非对完整模型进行验证,而是提供一条具体路径,将机制性电路解释转化为可证明或可反驳的**形式化命题**。这弥补了“找到合理电路”与“证明电路功能”之间的鸿沟。 当前局限在于:直接SMT验证仅适用于小规模模型和特定算子组合;替代中介验证虽然扩展了适用性,但替代模型的训练和验证本身也需额外成本。不过,该方法为AI可解释性提供了更严谨的数学基础,有望推动安全关键场景下Transformer的可信应用。

HuggingFace6天前原文

## 研究背景:神经算子的频谱偏差困境 神经算子(Neural Operator)作为科学建模中快速、数据驱动的替代模型,近年来在物理模拟、气象预测等领域展现出巨大潜力。然而,传统神经算子采用**单次前向推理**的固定流程,在处理高频细节时往往力不从心——这种被称为**频谱偏差(Spectral Bias)** 的局限性,导致模型对平滑的低频成分拟合良好,却无法准确捕捉剧烈的局部变化,例如湍流中的涡旋结构或活性物质中的非平衡态波动。 ## IRNO:将迭代精炼引入神经算子 针对这一挑战,来自多所高校的研究者在ICML 2026 Spotlight论文中提出了**迭代精炼神经算子(Iterative Refinement Neural Operator, IRNO)**。其核心思想是将预训练的基算子与一个**可学习的精炼模块**相结合,并通过**不动点迭代(Fixed-Point Iteration)** 反复应用该模块。 具体来说,IRNO首先由基算子生成一个**粗粒度初始预测**,然后精炼模块逐步添加**残差修正**,类似经典数值求解器(如牛顿法)的迭代过程。在局部平滑性假设下,研究者证明了该迭代算子的**压缩映射性质**,确保收敛到唯一不动点。 ## 渐进式频谱损失:针对性攻克高频误差 为显式抑制高频误差,IRNO引入了一种**渐进式频谱损失(Progressive Spectral Loss)**。该损失函数在训练过程中逐步增加对高频分量的惩罚权重,使得精炼模块在不同迭代步数中优先修正不同频率成分的误差。这种设计避免了传统损失函数对所有频率一视同仁的缺陷,让模型能够**自适应地聚焦高频细节**。 ## 实验结果:湍流误差降低56%,高频误差降至2% 在多个物理系统上的验证表明,IRNO显著提升了预测精度: - **湍流模拟**:相比基线算子,IRNO将误差降低了**56.05%**,尤其在高频涡旋区域改善明显。 - **活性物质系统**:频谱分析显示,经过迭代精炼后,归一化误差比在低频段降至**27.72%-36.10%**,中频段降至**5.07%-6.68%**,而高频段更是低至**1.48%-2.04%**。更重要的是,即使**超出训练设定的迭代次数**,误差仍未反弹,表明模型具有良好的泛化稳定性。 ## 意义与展望 IRNO的工作不仅提供了一种实用的算法,更从理论上将神经算子与**经典数值分析中的不动点迭代**联系起来,为理解深度学习中的迭代推理机制提供了新视角。未来,该方法有望推广至更广泛的偏微分方程求解、气候建模及工程仿真场景,成为连接数据驱动与物理驱动方法的桥梁。 论文代码已开源,感兴趣的研究者可进一步复现与扩展。

HuggingFace6天前原文

一篇来自 arXiv 的新研究《Hidden-State Privacy Has an Empty Middle》揭示了一个令人警醒的发现:在单层隐藏状态隐私保护中,**没有任何一种高斯扰动机制能同时实现中等水平的隐私和效用**。研究对 1536 种高斯发布协方差进行了测试,结果为零。 ## 核心发现:Fisher 球下界 研究者证明了一个互补的 Fisher 球下界:对于任何满秩的高斯发布机制,若其 Fisher 效用为 O(1),则必然存在一个方向,其马氏距离信号随隐藏宽度线性增长。这意味着在该机制类中,不存在统一的高斯安全性,与实验观察到的“空中间”现象完全吻合。 ## 唯一最优机制:对角逆 Fisher 发布 在众多机制中,**对角逆 Fisher 发布** Σ*_diag(K) = (2K/d) diag(1/F_ii) 被证明是 KL 预算 K 下唯一的最小最大最优对角机制。在 32 层模型网格的每个点上,它都能将最坏情况攻击者的 top-1 准确率控制在 0.001 以下。然而,它位于隐私/效用的边界上,而非中间区域。 ## 自适应攻击的威力 研究还展示了自适应攻击的破坏性:一个广义特征机制在欧氏距离检索下能达到 13 倍帕累托改进,但在自适应马氏攻击者面前,其 top-1 准确率直接崩至 100%。一个全轨迹序列逆变器能恢复 GPT-2 前缀的 94%,但在 Σ_diag 保护下则完全失效。 ## 架构协同设计的曙光 面对高斯类机制的固有局限,研究转向架构协同设计。一个从头训练的**分割记忆 Transformer**(Split-Memory Transformer)在 90M 参数时达到 G_Mah ∈ [20, 33],并在 30M 到 1B 参数范围内,以固定的 token 语言建模损失惩罚,相比同预算的 GPT 基线保持 6-24 倍的优势。而预训练模型最高仅为 9.3。 这些结果将隐藏状态发布问题从高斯类内的机制设计,重新定义为**架构或发布协同设计**。研究者认为,要真正填补隐私与效用的中间地带,必须超越传统的高斯扰动框架。

HuggingFace6天前原文

**科学发现本质上是一个闭环过程**:假设指导数据采集,而观测结果反过来修正假设空间。然而,当前大多数方法将科学发现简化为对固定数据集的监督学习,有限的观测往往支持多个看似合理的机制,这些机制在局部拟合良好,却无法泛化到新场景。因此,核心挑战在于如何选择信息量最大的观测来消除不确定性——这需要从静态推理转向自适应数据采集。 针对这一难题,来自弗吉尼亚理工大学等机构的研究团队提出了 **LLM-AutoSciLab**,一个将假设生成与假设条件实验选择、机制修正相耦合的闭环框架。不同于将模型拟合到被动收集的数据上,LLM-AutoSciLab 迭代地提出合理假设,选择最具区分力的实验来验证或修正这些假设,并根据实验结果更新自身状态。 为评估这种动态、闭环的科学发现能力,团队还发布了 **ActiveSciBench** 基准测试集,包含两个子集:ActiveSciBench-Chem(57 个酶动力学任务)和 ActiveSciBench-GRN(45 个基因调控网络任务)。这些任务将发现过程建模为预算受限的流程,要求算法具备自适应实验设计、变量选择和真实机制恢复能力。 实验结果令人振奋:在 NewtonBench、ActiveSciBench-Chem 和 ActiveSciBench-GRN 上,LLM-AutoSciLab 分别取得了 **67.6%** 和 **35.1%** 的符号准确率(前两个任务),以及 **31.1%** 的精确图恢复率(GRN 任务)。更关键的是,假设引导的实验设计在样本效率上比最强基线高出 **2-5 倍**。 ## 从被动学习到主动探索:科学发现的新范式 传统机器学习在科学发现中的应用往往受限于固定数据集:模型从已有数据中学习映射关系,但数据收集本身是独立于模型需求的。LLM-AutoSciLab 打破了这一局限,它让大语言模型(LLM)扮演“科学家”角色,主动设计实验来检验假设。这种闭环范式更接近真实科研流程:先提出假设,再通过实验获取关键数据,最后根据数据修正或选择假设。 ## 核心机制:假设生成、实验选择与机制修正 LLM-AutoSciLab 的每次迭代包含三个步骤: 1. **假设生成**:基于当前知识状态,LLM 提出一组候选机制(如数学方程或网络结构)。 2. **实验选择**:根据信息增益或不确定性度量,选择最能区分不同假设的实验(如特定条件下的观测变量)。 3. **机制修正**:根据实验反馈,更新假设空间,剔除或修正不符合观测的机制。 这一过程循环进行,直到预算耗尽或不确定性降低到阈值以下。 ## 基准测试与性能亮点 ActiveSciBench 的设计颇具挑战:每个任务都有真实的底层机制(如 Michaelis-Menten 动力学方程或基因调控网络),算法需要在有限实验预算内恢复这些机制。LLM-AutoSciLab 在符号准确率上大幅领先传统贝叶斯优化、主动学习等方法,尤其在样本效率上表现出色——仅用基线 1/5 的实验次数就能达到同等精度。 ## 行业意义与未来展望 LLM-AutoSciLab 展示了 LLM 在科学发现中的巨大潜力:不仅是作为知识库或代码生成器,而是作为闭环探索的核心决策者。该框架可应用于药物发现、材料设计、系统生物学等领域,加速假设验证和机制发现。未来工作可能包括:整合多模态实验数据(如图像、序列)、扩展到更复杂的因果发现任务,以及探索人机协作模式。 项目代码和数据集已开源(https://github.com/sanchit-kabra/LLM-AutoSciLab),感兴趣的读者可以复现并扩展这一方法。

HuggingFace6天前原文

工业异常检测是工业系统安全运行的核心挑战之一。随着异构工业传感器的快速发展,工业异常检测已从单模态走向多模态。然而,现有方法大多针对集中式和离线场景设计,忽视了真实工业环境中数据分布式、持续生成的特点。为此,研究者提出了 **多模态在线分布式工业异常检测(MODIAD)** 框架,并针对其中跨类别模型更新的协调问题,设计了 **多类智能调度(MIS)** 方案,通过 **序贯边际增益贪心(SMG)** 算法在资源约束下实现高效的多类训练。同时,为降低训练过程中的计算与通信开销,还引入了 **资源高效类级低秩自适应(REC-LoRA)** 策略,在保持检测性能的前提下显著减少系统开销。在 MVTec 3D-AD 和 Eyecandies 两个代表性多模态工业异常检测数据集上的实验表明,该方案在 MODIAD 场景下取得了优越的性能和效率。 ## 背景与问题 工业异常检测传统上依赖集中式服务器处理所有数据,但在实际产线中,数据往往由分布在不同地点的边缘设备持续产生。边缘智能的发展使得这些设备不仅能够采集数据,还能参与分布式模型训练,形成协同智能。然而,多模态数据(如 3D 点云与 RGB 图像)的融合、多类别产品的异质性以及在线学习的动态性,给分布式训练带来了新的挑战。 ## 核心方法 ### 多类智能调度(MIS) 在分布式环境中,不同类别的产品(如不同型号的零件)可能具有不同的数据量和异常模式。MIS 问题旨在通过平衡数据充足性和类别更新频率,协调跨类别的模型更新。SMG 算法通过贪心策略逐步选择最优的类别进行训练,在有限资源下最大化整体检测性能。 ### 资源高效类级低秩自适应(REC-LoRA) 为降低分布式训练中的通信与计算开销,REC-LoRA 借鉴了 LoRA 的思想,但针对多类别场景进行了改进。它允许每个类别独立学习低秩适配矩阵,而非更新整个模型参数,从而大幅减少传输数据量。同时,通过类级参数共享和结构化稀疏,进一步提升了资源效率。 ## 实验验证 研究者在 MVTec 3D-AD 和 Eyecandies 数据集上进行了评估。MVTec 3D-AD 包含多种工业产品的 3D 点云与 RGB 图像,Eyecandies 则提供合成糖果产品的多模态数据。实验对比了多种基线方法,包括集中式训练、独立训练以及传统分布式训练。结果显示: - **检测性能**:MODIAD 在多数类别上达到了最优的 AUC 和 F1 分数,特别是在数据分布不均的场景下优势明显。 - **通信效率**:REC-LoRA 将通信量降低至全参数更新的 10% 以下,同时保持检测精度几乎无损。 - **训练效率**:SMG 调度策略使得模型收敛速度提升约 30%,且对资源消耗更少。 ## 意义与展望 这项工作为工业异常检测走向边缘分布式部署提供了切实可行的技术路径。未来,随着工业物联网的普及,类似 MODIAD 的框架有望在实时质检、预测性维护等场景中发挥关键作用。研究者也指出,当前方法在类别数量极大时的调度开销仍需优化,且对非独立同分布数据的鲁棒性有待进一步验证。

HuggingFace6天前原文

蛋白质-配体建模是计算药物发现和分子设计的核心。现有基准大多通过二分类结合预测和亲和力回归来评估模型,但这些任务只能判断“是否结合”和“结合强弱”,无法揭示模型是否真正定位了结合位点或识别了非共价相互作用。为了填补这一空白,研究团队推出了 **InteractBind**——一个包含约10万对蛋白质-配体的大规模数据集,并配套了细粒度评估基准。 ## 核心任务:结合位点定位 InteractBind的核心是结合位点定位任务。它利用蛋白质残基-配体原子相互作用图(涵盖六种主要非共价相互作用类型)来检验模型生成的相互作用图是否能准确指示结合位点。此外,数据集还提供了结合亲和力和蛋白质相似性控制的分割,以支持更真实的泛化能力评估。 ## 八种模型评测:强结合预测,弱位点定位 研究团队对八种现有的序列基和交互感知模型进行了评估,包括二分类结合预测和结合位点定位。结果令人警醒:尽管这些模型在二分类结合预测上表现优异(即能较好地判断“是否结合”),但在结合位点定位任务上能力有限,且在不同非共价相互作用类型上表现差异显著。 ## 意义与启示 InteractBind建立了一个新的基准范式,鼓励开发更具可解释性和物理基础的蛋白质-配体模型。该工作目前正在接受 **NeurIPS 2026** 的评估与数据集赛道评审。对于AI制药领域而言,这一基准提示我们:**模型的高预测性能可能只是学会了结合概率的统计模式,而非真正理解了分子识别的物理机制**。未来的模型需要在可解释性和物理合理性上做出更多努力。

HuggingFace6天前原文

在算法交易市场中,预测模型不再仅仅是“旁观者”。它们输出的交易指令、资产配置、执行计划或风险控制,会直接改变市场未来的数据分布。这种“自我实现的预言”给传统时间序列预测带来了根本性挑战。近日,一篇发表于 arXiv 的论文《Algometrics: Forecasting Under Algorithmic Feedback》正式提出了 **Algometrics(算法计量学)** 这一全新框架,专门研究那些受预测算法反馈影响的时间序列。 ## 核心问题:预测改变被预测的对象 论文作者 Marc Schmitt 指出,在算法市场中,预测模型会嵌入到数据生成过程中。当模型输出被转化为实际交易或风险决策时,它们会改变后续的市场状态,进而影响模型自身的评估数据。这导致了一个关键矛盾:**历史风险**(在被动预测下测量)与**部署风险**(当预测驱动行动时测量)可能截然不同。 ## 三大理论结果 论文证明了三个重要结论: 1. **部署风险不可仅从历史数据识别**:即使在一个最简单的线性反馈模型中,也存在无数种算法介入的环境,它们能产生相同的“历史规律”,但对同一预测器却意味着不同的部署风险。这意味着,单纯依赖历史回测无法可靠评估模型上线后的真实表现。 2. **历史排名可能在拥挤效应下反转**:当多个相似算法同时被采用时,原本在被动测试中表现更好的模型,其部署误差反而可能更高。这揭示了算法“拥挤交易”带来的系统性风险——模型表现不仅取决于自身,还取决于竞争对手的行为。 3. **随机化或工具变量可识别短周期反馈**:论文进一步推导出,通过引入随机化或工具变量行动,可以在有限样本下估计短周期线性反馈的部署风险,并给出了有限样本误差界。 ## 行业启示:基准测试需要“反馈敏感性” 这一研究对 AI 和量化金融领域具有深远意义。当前大多数时间序列基准(如 M4、M5 竞赛)仍停留在“预测精度”的单一维度,忽略了算法反馈对模型实际效用的影响。论文建议,未来的时间序列基准在报告预测准确度的同时,**应补充反馈敏感性指标**,以反映模型在真实部署环境中因自身行为引发数据变化后的鲁棒性。 ## 应用前景与挑战 Algometrics 框架不仅适用于高频交易和做市策略,还可扩展到**推荐系统、自动驾驶决策、动态定价**等任何模型输出影响环境的场景。然而,如何在实际系统中设计有效的随机化或工具变量方案,以及如何将理论扩展到非线性、高维反馈场景,仍是开放问题。 ## 小结 这篇论文为“预测即干预”的时代提供了理论基础。它提醒我们:在 AI 深度嵌入决策系统的今天,预测模型不再是静态的“地图”,而是与市场共同演化的“活地图”。理解并量化这种反馈效应,将是下一代智能系统的关键能力。

HuggingFace6天前原文

亚马逊近期终止了对8款Kindle电子阅读器和Fire平板电脑的支持,这些设备将无法再访问Kindle商店。但这并不意味着它们完全沦为废品——用户依然可以通过USB传输或第三方工具继续阅读已下载的内容。 ## 哪些设备被列入“不支持”名单? 根据亚马逊官方公告,以下型号被移出支持列表: - **Kindle (第4代)** - **Kindle Touch (第4代)** - **Kindle Paperwhite (第5代)** - **Kindle Voyage** - **Kindle Oasis (第8代)** - **Fire HD 6 (第4代)** - **Fire HD 7 (第4代)** - **Fire HD 8 (第4代)** 这些设备大多发布于2012-2014年间,硬件性能已无法满足最新系统要求。 ## 失去支持意味着什么? 主要影响包括: 1. **无法访问Kindle商店**:不能直接购买或下载新书。 2. **无法同步阅读进度**:云端同步功能失效。 3. **无系统更新**:不再获得安全补丁和功能升级。 但**已购买的内容**仍可通过USB从电脑传输,或使用Calibre等工具管理。此外,这些设备仍可阅读本地文件(如PDF、MOBI格式)。 ## 是否值得继续使用? 对于轻度用户而言,这些老设备依然可以作为**专用阅读器**使用。E Ink屏幕的护眼特性并未过时,电池续航通常也优于现代平板。不过,如果依赖云服务或需要最新格式支持(如KFX),升级到新款Kindle或Fire平板会是更好的选择。 ## 行业视角 此举符合科技行业常见的“计划性淘汰”策略,但也提醒用户:数字内容的长期可访问性依赖于平台支持。对于收藏大量电子书的用户,建议定期备份本地文件。亚马逊这一动作也侧面推动了新款设备(如Kindle Scribe、Fire HD 10)的更新换代。 总之,失去支持不等于立即报废,但用户需权衡功能损失与使用习惯。

ZDNet AI6天前原文

AI 热潮推高了内存和存储设备的价格,但 **Best Buy** 在 **Memorial Day** 周末为 **金士顿 Fury Beast 64GB DDR5 内存套件** 提供了近 **200 美元** 的优惠——从原价 **1,175 美元** 降至 **999 美元**,节省 **176 美元**。 ## 为什么值得关注? 随着 AI 公司大量采购 RAM 和硬盘以建设数据中心和训练大语言模型,DIY 玩家和游戏玩家的升级计划屡屡受阻。这款内存套件以 **2×32GB** 双通道配置、**DDR5-5600MHz** 频率和 **CL40** 时序,适合高端游戏和多任务处理。虽然它并非市面上速度最快的 DDR5 套件(更高频的型号可达 6000MHz 甚至 6400MHz),但 **999 美元** 的价格在当前市场环境下已属难得。 ## 谁应该购买? - **游戏玩家**:需要大容量内存运行《赛博朋克 2077》等大作或同时开启直播、后台软件。 - **内容创作者**:视频剪辑、3D 渲染等内存密集型任务可受益于 64GB 容量。 - **AI 爱好者**:本地运行中型模型(如 LLaMA 系列)或进行数据预处理。 ## 注意事项 - 该价格仍高于 2023 年 AI 热潮前的水平,但对比近期涨幅已算“折扣”。 - 如果你不急需,可等待市场进一步回落;但 **Best Buy** 的库存有限,促销仅限 **Memorial Day** 期间。 - 兼容性方面,需确认主板支持 DDR5 和 5600MHz 频率(Intel 12/13/14 代或 AMD Ryzen 7000 系列)。 ## 小结 这次促销并非“史低价”,但在 AI 驱动的涨价潮中,它为刚需用户提供了一个相对合理的入手窗口。适合预算充足且不愿继续等待的玩家和创作者。

ZDNet AI6天前原文