SheepNav

AI 资讯

每日聚合最新人工智能动态

今天,马斯克诉奥特曼案进入结案陈词阶段。这场备受瞩目的庭审,与其说是法律较量,不如说是一场充满戏剧性的“拆车大赛”。马斯克的律师史蒂文·莫洛在陈词中频频出错,甚至将共同被告格雷格·布罗克曼误称为“格雷格·奥特曼”,并错误地声称马斯克没有索要金钱,被法官当场纠正。莫洛声称庭审中出现了许多谎言,但未能为马斯克的法律主张提供有力证据。 OpenAI的律师莎拉·埃迪则通过按时间顺序整理的大量证据进行反击,她并未试图粉饰任何一方的可靠性,但一针见血地指出:“就连他孩子的母亲都不支持他的说法。”另一位律师威廉·萨维特则展示了马斯克多次“记不清”关键细节的次数,并质疑一位精明的商人为何看不懂OpenAI发给他的四页条款清单。 这场庭审的真正看点或许在于爆出的“八卦”:马斯克曾利用OpenAI改进其AI公司xAI。早在2024年,业界就对Grok模型的快速开发速度表示怀疑,如今马斯克本人承认xAI确实“蒸馏”了其他模型,印证了此前的猜测。 整体而言,这场庭审更像一场公开的爆料大会,而非严肃的法律程序。尽管双方律师尽力交锋,但核心法律问题似乎被淹没在个人恩怨与行业八卦之中。

The Verge19天前原文

自今年 2 月 SpaceX 与 xAI 合并为 SpaceXAI 以来,已有超过 50 名研究人员和工程师离职,引发外界对其人才留存能力和模型研发前景的担忧。据 The Information 报道,离职人员包括编码、世界模型和 Grok 语音等关键团队的负责人,核心预训练团队仅剩寥寥数人。竞争对手 Meta 和 Mira Murati 创立的 Thinking Machine Labs 成为主要“接盘方”,分别吸纳了至少 11 名和 7 名前员工。 预训练团队的流失尤为引人注目。该团队前负责人 Juntang Zhuang 离职后,剩余成员也相继离开。预训练是构建新 AI 模型的第一步,大量核心成员出走引发了内部与外界对 SpaceXAI 是否仍致力于开发领先模型的质疑。 离职潮背后有多重原因。首先,Musk 在旗下公司(包括特斯拉)推行的“极端工作文化”再次成为焦点。有知情人士透露,Musk 为模型训练设定了不切实际的截止日期,导致 Grok 开发过程中“偷工减料”。其次,SpaceX 定期提供股票回购机会,员工可提前变现受限股票,加之公司 IPO 预期强烈,使得员工在获得财务回报后更不愿承受高压工作。 值得注意的是,部分离职发生在合并公告之后,包括两位联合创始人。SpaceX 在 2 月完成对 xAI 的收购后,已为合并公司任命了新领导层,并于本月早些时候正式更名为 SpaceXAI。TechCrunch 此前已报道其中 11 起离职事件。 人才大规模外流对 SpaceXAI 的长期竞争力构成挑战。在 AI 军备竞赛白热化的当下,顶尖人才的流失可能削弱其模型迭代速度与技术护城河。Musk 能否在保持高强度创新文化的同时留住核心团队,将决定 SpaceXAI 在日益拥挤的市场中能否站稳脚跟。

TechCrunch19天前原文

Anthropic 近日在 GitHub 上开源了 **Claude for Legal** 项目,一套专为法律工作流设计的参考智能体、技能和数据连接器。该项目覆盖了公司法务、隐私、产品、公司治理、雇佣、诉讼、监管、AI 治理、知识产权以及法学院教学等常见场景,旨在通过 AI 辅助提升律师的工作效率,但明确强调输出仅为草稿,需律师最终审核。 ## 项目核心:即装即用的智能插件 项目提供了两种部署方式:作为 **Claude Cowork** 或 **Claude Code** 插件安装,或通过 **Claude Managed Agents API** 集成到自有工作流引擎中。相同的系统提示和技能集,用户可选择运行环境。安装过程简单,只需遵循 Quickstart 指南,60 秒内即可完成。 实践领域插件覆盖企业内部、律所和学术法律工作,每个插件都包含“冷启动访谈”功能,可学习用户的操作手册,并配有 **CLAUDE.md** 实践配置文件,供所有技能读取。此外,项目还提供托管智能体菜谱,用于定时监控任务,如续约提醒、案卷监控、监管动态跟踪、尽职调查网格和产品发布雷达。 ## 连接器生态:打通法律与通用工具 MCP 连接器支持通用生产力工具(Slack、Google Drive、Box)和法律专用系统(Ironclad、DocuSign、iManage、Everlaw、CourtListener 等)。这意味着律师可以在一个界面中调取合同管理系统、电子发现平台和法院数据库,实现跨系统工作流自动化。 ## 安全与责任边界:AI 辅助,律师负责 项目明确设定了严格的使用边界: - 所有输出均为 **律师审核草稿**,不构成法律建议、法律结论或律师替代品。 - 内置防护措施包括:每条引用的来源归属、关于特权和主观法律判断的保守默认设置、管辖假设的明确提示,以及在文件提交、发送或依赖前设置明确的门槛。 - 律师需对离开工作环境的任何内容进行审核、验证并承担专业责任。这些插件加速审核过程,但不可替代律师的判断。 - 插件不代表 Anthropic 的法律立场,其中包含的清单项、建议框架、风险标记或判例法/监管指南的特征描述,均仅为辅助律师分析的工具,而非 Anthropic 对法律的观点。许多法律领域尚不确定且不断演变,使用插件的律师——而非插件或 Anthropic——对其工作成果中的法律立场负责。 ## 行业意义:法律 AI 从工具到工作流的演进 Claude for Legal 的开源标志着 AI 在法律行业的应用从单一问答工具向 **可定制、可集成的工作流平台** 转变。传统法律 AI 产品多聚焦于合同审查或法律研究,而 Claude for Legal 提供了覆盖完整法律业务线的插件体系,并支持用户自定义技能和连接器。这种开放架构降低了律师事务所和企业法务部门采用 AI 的门槛,同时也通过明确的责任划分解决了行业对 AI 合规性的担忧。 对于法学院和学术机构,项目还包含了面向教学的插件,有助于学生在模拟环境中学习法律实务。随着 AI 在法律领域的渗透加速,Claude for Legal 可能成为律师数字化工作流的重要基础设施。

Hacker News22519天前原文

在 **马斯克诉奥特曼** 一案中,一座看似少年棒球联盟奖杯的物件引发了关注。它并非普通奖杯,而是 OpenAI 员工为研究科学家 **Josh Achiam** 购买的纪念品,上面刻着:“永远不要停止做一个混蛋。” 这一事件的背景源于马斯克离开 OpenAI 时的争执。当时,马斯克表示要超越 Google,而专注于 AI 安全的 Achiam 质疑这是否明智,马斯克随即称其为“混蛋”。多年后,马斯克在诉讼中声称是为了防止 AI 造成严重危害,但奥特曼团队指出,他当年并不关心这个问题。 在庭审中,马斯克否认了该事件,称自己可能只是说了“别当混蛋”。法官 **Yvonne Gonzalez Rogers** 裁定,除非马斯克团队给 OpenAI 引入该奖杯的理由,否则陪审团不得看到它。然而,公众现在得以一窥这座奖杯的真容。

The Verge19天前原文

OpenAI 宣布其 AI 编程工具 **Codex** 正式集成至 **ChatGPT 移动应用**(iOS 和 Android),用户现可通过手机远程监控和管理开发工作流。 此次更新允许用户随时随地查看 Codex 的实时运行环境,并跨所有线程操作,包括审查输出、批准命令、切换模型或启动新任务。OpenAI 表示,这不仅仅是远程控制单个任务或向电脑派发新指令,而是实现了全面的移动端工作流管理。 Codex 于大约一年前发布,是 OpenAI 针对编程场景推出的智能体工具。上个月,OpenAI 已为 Codex 增加了桌面端后台运行能力,使其能自主处理多项任务;本月早些时候,还推出了 Chrome 扩展,支持在实时浏览器会话中工作。 值得注意的是,Anthropic 在二月份也发布了类似功能 **Remote Control**,允许用户远程监控 Claude Code 的运行。两家公司在 AI 编程智能体领域的密集更新,反映出双方对“谁将成为最广泛使用的编程工具”的激烈竞争。过去一年,Anthropic 的 Claude Code 在企业和技术人员中人气攀升,但两者仍被广泛使用。 目前该更新处于预览阶段,所有 ChatGPT 付费计划用户均可使用。

TechCrunch19天前原文
Meta内部工程师抗议笔记本监控,请愿书已获数千人支持

Meta 公司近期在员工中引发了一场关于隐私与数据利用的激烈争议。据内部消息,一名工程师在公司内部论坛发布了一篇帖子,反对 Meta 强制安装的笔记本监控软件,该帖子迅速获得近 2 万名同事阅读。这款软件被称作“模型能力计划”,自去年底起在美国员工电脑上部署,能够记录屏幕操作、鼠标移动和键盘敲击,目的是收集“人们实际使用计算机的真实示例”,用于训练 AI 模型。 该工程师在帖子中直言:“自私地说,我不希望自己的屏幕被截取,因为这侵犯了我的隐私。但放眼全局,我不希望生活在一个人类——无论是员工还是其他人——被利用来提供训练数据的世界。”他呼吁同事支持一份自上周四开始在公司内部流传的请愿书,要求终止该计划。请愿书明确指出:“任何规模的公司都不应被允许在未经同意的情况下提取员工数据用于 AI 训练,这不应成为常态。” 这一事件折射出 AI 行业在数据收集方式上的新动向。以往,企业训练智能体 AI 模型时,通常招募自愿参与者(有时提供报酬)来记录其操作行为。而 Meta 选择直接从员工身上采集数据,尽管在美国雇主对工作设备拥有广泛的监控权限,但将监控数据直接用于 AI 训练仍属罕见做法。 目前,Meta 尚未公开该数据收集项目是否已取得实质成果。公司内部对 AI 的态度也颇为矛盾:许多员工享受 AI 带来的编程便利,但同时对其社会影响深感忧虑。一位工程师写道:“我一方面很喜欢用 AI 写代码,另一方面又对它的世界影响感到非常不安。我们正在建立怎样的技术使用规范?人们将如何被对待?” 尽管请愿活动已持续数周,Meta 尚未宣布任何调整计划。这场风波不仅关乎员工隐私,更触及了 AI 时代数据伦理的核心问题:当企业同时扮演雇主和 AI 开发者角色时,员工的数据权益该如何界定?

WIRED AI19天前原文

OpenAI 正在将桌面 AI 工具 **Codex** 引入 ChatGPT 手机应用,允许用户通过手机远程指挥电脑上的 Codex 执行编程、操作应用等任务。这一举措紧随 Anthropic 的 **Claude Code** 走红之后,被视为 OpenAI 加速追赶、整合产品线的关键一步。 ### 手机端远程操控桌面 Codex 根据官方博文,用户现在可以通过 iOS 或 Android 上的 ChatGPT 应用,与电脑端的 Codex 进行实时交互。具体来说,你可以用手机“浏览所有线程、审查输出、批准命令、切换模型或启动新任务”。所有文件、凭证、权限和本地设置仍保留在 Codex 运行的电脑上,而手机端会实时接收更新的截图、终端输出、差异对比、测试结果和审批请求。 这一功能以预览形式向所有 ChatGPT 计划用户推出,包括免费版和更实惠的 Go 计划。这意味着 OpenAI 正在降低 Codex 的使用门槛,让更多用户能够体验桌面 AI 的便利。 ### 竞争压力下的战略调整 Codex 的移动端扩展并非孤立事件。近期 **Anthropic 的 Claude Code** 在开发者群体中迅速走红,给 OpenAI 带来了直接压力。据报道,OpenAI 为了加速追赶,正在采取一系列“聚焦”措施:削减“支线任务”、关闭 Sora 视频生成工具等项目,并集中资源发展企业业务。此前,OpenAI 已发布重大更新,使 Codex 能够在 macOS 上直接操作应用,这被视为其打造桌面“超级应用”野心的关键一步。 ### 行业影响与展望 将 Codex 能力延伸至手机,标志着 AI 开发工具的交互模式正在发生转变。过去,编程助手主要局限于桌面 IDE 或终端,而现在用户可以通过手机随时启动、监控或调整任务,实现了“随时随地的开发协作”。对于企业用户而言,这意味着更高的灵活性和响应速度;对于个人开发者,则可能意味着更便捷的工作流。 不过,这一功能目前仍处于预览阶段,实际体验和稳定性还有待观察。同时,远程控制桌面操作也可能引发新的安全和隐私考量——尽管 OpenAI 强调本地数据和凭证不会上传至手机,但跨设备通信的安全性仍是用户关注的焦点。 总体来看,OpenAI 正在通过 Codex 的移动化,将桌面 AI 工具从“单一设备”推向“多设备协同”,这不仅是功能上的补全,更是对 AI 开发工具生态的一次重塑。

The Verge19天前原文

Richard Socher,这位因创办聊天机器人初创公司You.com和参与ImageNet研究而闻名的AI领域重要人物,如今带着新项目“Recursive Superintelligence”重新回到聚光灯下。这家总部位于旧金山的初创公司于本周三正式浮出水面,并宣布获得**6.5亿美元**融资。Socher与Peter Norvig、Cresta联合创始人Tim Shi等一批顶尖AI研究者联手,试图攻克AI领域的一个“圣杯”——**递归自我改进**:打造一个能够自主识别自身弱点并重新设计以修复这些弱点的AI模型,整个过程无需人类介入。 在一次采访中,Socher阐述了他们的独特技术路径——**开放性(open-endedness)**。他强调,递归自我改进并非简单的“让AI改进某个东西”,而是一个完整的闭环:从研究想法的产生、实施到验证,全部自动化。这不仅限于AI研究本身,未来还可能扩展到物理领域。但最核心的场景是AI“对自己下手”,发展出一种对自身不足的自我意识。 值得注意的是,Socher并不认为Recursive Superintelligence是一个“新实验室”(neolab)——一个只重研究不重产品的AI创业新流派。他坚持表示,这个项目最终会交付实际产品。这或许暗示了其商业化路径:在追求通用超级智能的同时,也会寻找落地场景。 6.5亿美元的巨额融资也反映出资本对“自我进化AI”这一方向的狂热。当前,从OpenAI到DeepMind,几乎所有顶级实验室都在探索某种形式的递归或自动改进。但Socher团队认为,真正的递归自我改进尚未实现,而他们的“开放性”方法可能是突破口。 然而,挑战同样巨大。递归自我改进在理论上可能导致“智能爆炸”,引发安全与对齐问题。Socher团队如何确保AI在自我改进过程中保持可控,将是外界关注的焦点。此外,巨额融资也意味着巨大的交付压力——投资者不会无限期等待一个纯研究项目。 总体而言,Recursive Superintelligence的亮相标志着一个新阶段的开始:当AI研究开始将“让AI自己造自己”作为产品目标时,行业的技术路线、伦理讨论和商业逻辑都将面临重塑。

TechCrunch19天前原文

父亲节将近,Meta旗下智能眼镜迎来一波力度不小的折扣。**第二代Ray-Ban Meta智能眼镜**现享**15% off**,售价约**$390**(省$69);而**Oakley Meta HSTN**款式更是**直降20%**,优惠幅度达**$95**。此外,购买任意款式还可享受**定制镜片额外20% off**,对有视力需求的用户相当友好。 ### 优惠详情一览 | 型号 | 折扣幅度 | 参考优惠后价格 | |------|----------|----------------| | 第一代Ray-Ban Meta | 25% off | 约$300(估算) | | 第二代Ray-Ban Meta | 15% off | **$390**(省$69) | | Oakley Meta HSTN | 20% off | 省$95 | > 注:第一代价格基于25%折扣推算,实际价格请以电商页面为准。 ### 为什么值得关注? Meta的Ray-Ban智能眼镜自第二代起加入了**AI视觉助手**,支持实时物体识别、翻译、导航等功能,成为日常佩戴与科技尝鲜的平衡之作。Oakley款则更偏向运动与户外场景,设计更贴合活跃用户。 这次促销覆盖了**Meta与两大眼镜巨头Ray-Ban、Oakley**的全线合作产品,折扣力度在近期属于较高水平,尤其是Oakley款20%的降幅相当罕见。如果你正考虑入手一款**轻量级AI穿戴设备**,现在是不错的时机。 ### 购买建议 - **首次尝试智能眼镜**:推荐第二代Ray-Ban Meta,功能更完善,优惠后性价比突出。 - **运动爱好者**:Oakley Meta HSTN更贴合户外使用,且折扣更大。 - **有视力矫正需求**:别忘了叠加**镜片20% off**优惠,能省下不少。 ### 注意事项 - 促销由Amazon等渠道提供,库存可能有限。 - 第一代产品已停产,库存不多,但折扣最大。 - 建议下单前确认是否支持中国区功能(如AI助手需联网)。 总体来看,这次促销覆盖了Meta智能眼镜全产品线,折扣力度诚意十足。无论是自用还是作为父亲节礼物,都是一个值得考虑的选择。

ZDNet AI19天前原文
能源供应商为服务数据中心,抛弃太浩湖居民

位于加州与内华达州交界处的著名旅游和滑雪胜地太浩湖(Lake Tahoe)正面临一场能源危机。当地电力供应商 Liberty Utilities 宣布,其长期依赖的能源来源——内华达州公司 NV Energy——将在 2027 年 5 月前停止向其供电,理由之一正是内华达州快速扩张的数据中心需求。这一决定将影响居住在太浩湖地区的 49,000 名加州居民。 ## 数据中心需求成导火索 据 Liberty 向加州监管机构提交的文件,NV Energy 终止供电协议的主要原因之一是内华达州数据中心开发的快速增长。NV Energy 的规划文件显示,到 2033 年,北内华达州的十几个数据中心项目可能带来高达 5,900 兆瓦的新增电力需求。为了满足这一需求,NV Energy 已与多家科技公司签订合同,以获取额外的发电资源。例如,亚马逊近期同意支持该公用事业公司在里诺部署 700 兆瓦的“低碳能源”,其中包括 100 兆瓦的地热能。 尽管外界普遍将矛头指向数据中心,NV Energy 的代表却予以反驳,称这一决定是长期过渡的一部分,早在人工智能热潮之前就已开始。NV Energy 于 2009 年将其加州资产出售给 Liberty 后,曾通过一系列临时协议继续为太浩湖供电,直到 Liberty 找到其他供应商。如今,NV Energy 表示无法再延长这些协议。 ## 寻找替代方案 Liberty 目前正紧急寻找新的能源供应商,并计划为能够满足加州可再生能源要求的竞标者提供替代合同。然而,情况因监管复杂性而雪上加霜:据《财富》杂志报道,“没有一个单一的监管机构能够监督从发电到客户账单的整个链条”。加州居民的未来用电将面临不确定性。 ## 行业背景与启示 这一事件凸显了人工智能和数据中心扩张对能源基础设施的深远影响。随着 AI 训练和推理需求激增,科技巨头纷纷争夺清洁电力资源,导致部分地区出现能源挤占。太浩湖的案例并非孤例——全球多个地区都出现了数据中心与居民争夺电力的现象。对于政策制定者而言,如何在推动数字经济发展的同时保障民生用电,已成为亟待解决的课题。

Ars Technica19天前原文

据彭博社报道,OpenAI因与苹果的ChatGPT集成合作未达预期——订阅用户和曝光度均远低于预期——正考虑对苹果采取法律行动。OpenAI已聘请外部律所评估选项,可能包括发送正式违约通知,但全面诉讼预计将推迟至与Elon Musk的庭审结束后。 合作始于2024年6月苹果WWDC,ChatGPT被整合进Siri和视觉智能功能。OpenAI原预期该合作能带来数十亿美元订阅收入,但实际效果惨淡:集成功能被“深埋”,用户难以发现,收入远不及预期。一位OpenAI高管对彭博表示:“苹果基本意思是‘你得信任我们’,结果并不好。” 苹果方面也有不满,包括对OpenAI隐私标准的担忧,以及对其进军硬件领域(由前苹果设计总监Jony Ive领导)的恼怒。 OpenAI并非第一个后悔与苹果合作的伙伴。从Google Maps到Adobe,苹果有着“拥抱伙伴然后疏远”的漫长历史。当合作伙伴在苹果生态中显得“过于舒适”时,苹果往往会将其扫地出门。 目前OpenAI和苹果均未回应置评请求。此事件再次凸显了苹果作为平台方的强势地位——iPhone是极具吸引力的增长平台,但完全在苹果控制之下,第三方公司始终只是“客人”。

TechCrunch19天前原文

硅谷的“Token最大化”时代迎来了专属硬件。一个名为 **Clawdmeter** 的新开源项目,将 Anthropic 旗下 Claude Code 的使用数据搬到了小巧的桌面仪表盘上,让 AI 重度用户能实时掌握自己的 Token 消耗情况。 该项目由冰岛雷克雅未克的软件开发者 **Hermann Haraldsson** 打造。他并非嵌入式开发专家,但在 Claude 的帮助下,仅用几天时间就完成了原型。Haraldsson 表示,Claude 极大地降低了编程门槛,让非专业人士也能实现以往只有开发者才能完成的任务。 ## 从像素动画到数据可视化 Clawdmeter 的核心是一块 **Waveshare ESP32-S3-Touch-AMOLED-2.16** 显示屏,通过蓝牙与笔记本电脑连接。设备启动后,屏幕会显示像素风格的 **Clawd 精灵动画**——随着 Token 使用率升高,动画节奏会越来越快,形成一种“多巴胺循环”。用户可以通过中间按钮切换动画样式,或查看会话和每周的 Claude 使用数据图表。 ## Tokenmaxxing 文化的新符号 Clawdmeter 不仅是一个实用工具,更折射出开发者社区对 **Tokenmaxxing** 趋势的热衷。这一概念指工程师在工作中最大化 AI Token 消耗量,以此衡量自己对 AI 工具的吸收程度。有 Reddit 用户调侃道:“Anthropic 应该免费给我们寄一个。”还有人提议增加一键充值 Token 的按钮——当然,这可能带来意想不到的消费风险。 ## 开源与自建指南 项目已在 GitHub 开源,感兴趣的用户可自行购买硬件并按照指南搭建。Haraldsson 强调,设计阶段花费了最多时间,包括字体、颜色和动画细节的打磨。对于希望拥有个性化 AI 使用仪表盘的开发者来说,Clawdmeter 提供了一个兼具趣味性和功能性的选择。

TechCrunch19天前原文
特朗普访华科技随行团、马斯克与奥特曼诉讼谁占上风,以及汉坦病毒阴谋论

本期《Uncanny Valley》播客深入探讨了多个热点话题。首先,特朗普总统即将启程访华,随行团队中包括多位硅谷科技亿万富翁和《梅兰妮》导演布雷特·拉特纳。这一阵容引发了外界对其外交影响的广泛猜测——在中美经济与地缘政治博弈日益激烈的背景下,科技领袖的参与能否为对话增添变数? 其次,播客重点分析了埃隆·马斯克对萨姆·奥特曼的诉讼最新进展。马斯克指控OpenAI背离了其最初的**非营利使命**,转向逐利目标。节目探讨了双方在庭审中的攻防策略,以及谁更有可能占据上风。值得注意的是,庭审现场甚至出现了“豪华坐垫”等趣闻,而奥特曼则爆料马斯克曾有过将OpenAI传给子女的“惊人想法”。 此外,节目还揭露了围绕**汉坦病毒**爆发的各种离奇阴谋论。科学记者Leah分享了这些谣言如何在网上迅速传播,并介绍了开发该病毒检测方法的竞赛。 本集内容涵盖政治、科技与公共卫生的交叉领域,为听众提供了多元视角。

WIRED AI19天前原文

微软计划在 6 月底前取消大部分 Claude Code 许可证,引导数千名开发者转向其内部的 GitHub Copilot CLI。这一决策既有技术收敛的考量,也涉及财务优化——在财年结束前削减运营开支。Claude Code 在微软内部广受欢迎,甚至一度“过于成功”,但为了统一命令行 AI 编码工具,微软决心押注自家产品。

The Verge19天前原文

When Oregon resident Isabelle Reksopuro heard Google was gobbling up public land to fuel its data centers in her home state, she didn't initially know what to believe. "There's a lot of misinformation about data centers," she said. "Google has denied taking that land." Technically, she explains, The Dalles, a city near the Washington state […]

The Verge19天前原文

仅仅发布一个月后,Anthropic 备受争议的 Claude Mythos 模型已在测试中展现出显著的新能力,引发业界对其快速进化的关注。 英国 AI 安全研究所(AISI)在最新博客中披露,他们测试了 Mythos 的一个较新版本(Mythos Preview),结果令人震惊:该模型在两项网络安全测试中均取得突破,成为首个完成“冷却塔”挑战的 AI 模型。具体而言,Mythos Preview 在 10 次尝试中成功解决“最后的防线”6 次,并首次攻克此前无模型能解的“冷却塔”挑战(3/10 成功率)。这一成绩不仅超越了其自身早期版本,也优于 OpenAI 的 GPT-5.5。 Anthropic 上个月发布 Mythos Preview 时曾强调该模型“过于强大”而无法公开发布,并联合苹果、谷歌、微软等公司成立了“Project Glasswing”网络安全测试联盟,仅限合作伙伴使用。AISI 的独立测试验证了 Mythos 能力的真实跃升,既非单纯营销炒作,也未如部分担忧那般预示灾难性转变。 更值得关注的是,能力改进并非仅随模型代际更迭发生,而是在同一模型版本内部快速演进。AISI 指出,Mythos 在一个月内的进步表明 AI 能力的提升速度可能远超预期。这一现象对 AI 安全治理提出了新挑战:如何在模型内部快速迭代时有效评估风险并制定相应管控措施? 随着 Mythos 持续进化,关于“能力边界”与“安全护栏”的讨论将更加激烈。AISI 表示将继续监测其发展,为政策制定提供依据。

ZDNet AI19天前原文

Amazon Lex 新推出的 **Assisted NLU(自然语言理解)** 功能,正在改变对话式 AI 机器人的构建方式。传统 NLU 系统依赖开发者手动配置每一个可能的用户表述变体,不仅耗时巨大,而且难以覆盖真实场景下的语言多样性。Assisted NLU 则利用大语言模型(LLM)自动处理拼写错误、复杂句式和多意图表达,无需额外编码即可提升意图识别和槽位填充的准确率。 ### 传统 NLU 的三大痛点 1. **表述变体覆盖不全**:用户说“我想订酒店”和“我需要预订住宿”可能指向同一个意图,但传统系统需要分别枚举。 2. **复杂请求解析失败**:类似“帮我订一间 Seattle 市中心的双人房,12月15到18号”这样的句子,常丢失房间类型、位置、日期等关键信息。 3. **歧义处理能力弱**:用户说“我需要处理我的预订”,机器人无法判断是查询、修改还是取消。 ### Assisted NLU 如何工作 Assisted NLU 通过结合传统机器学习和 LLM,利用**意图和槽位的名称与描述**来理解用户输入。它支持三种工作模式: - **Primary 模式**:全程使用 LLM 增强理解,适合高精度场景。 - **Fallback 模式**:仅当传统 NLU 置信度不足时启用 LLM,作为安全兜底。 - **意图消歧**:当多个意图概率接近时,主动引导用户确认。 该功能已包含在标准 Amazon Lex 定价中,无需额外付费。 ### 实施最佳实践 #### 1. 优化意图与槽位描述 Assisted NLU 依赖语义理解,因此**描述的质量直接决定准确率**。建议: - 为每个意图提供清晰、具体的描述,例如“BookHotel”的描述可写为“用户预订酒店房间,包括选择地点、日期和房型”。 - 为槽位添加上下文提示,如“room_type”的描述为“房间类型,如标准间、套房、豪华房”。 #### 2. 利用 Test Workbench 验证 Amazon Lex 提供的 **Test Workbench** 可批量测试对话样本,对比传统 NLU 和 Assisted NLU 的表现。建议: - 准备涵盖常见表述、复杂句式和边缘情况的测试集。 - 关注意图分类准确率、槽位填充完整率和对话完成率三个指标。 - 根据测试结果迭代调整描述和示例语句。 #### 3. 渐进式迁移策略 - **新建机器人**:直接启用 Assisted NLU,从设计阶段就采用 LLM 增强。 - **现有机器人**:建议先启用 Fallback 模式,逐步观察效果,再切换到 Primary 模式。 - 保留传统 NLU 配置作为基线,便于对比回归。 ### 行业影响与展望 Assisted NLU 的推出,标志着对话式 AI 从“规则驱动”向“语义理解”的重要转变。对于企业而言,这意味着: - **降低维护成本**:减少手动枚举 utterance 的工作量,迭代周期从周级缩短到天级。 - **提升用户体验**:机器人能更自然地理解用户的真实表达,减少重复和放弃率。 - **加速上线速度**:新业务场景的对话模型搭建时间可缩短 50% 以上。 不过,LLM 的引入也带来新的考量:模型推理延迟、对描述质量的敏感度,以及在特定领域(如医疗、金融)的合规性。建议开发者在正式上线前进行充分的压力测试和合规审查。 总的来说,Amazon Lex Assisted NLU 为构建高精度对话机器人提供了一条更智能、更高效的路径。无论是初创公司还是大型企业,都可以通过合理的设计和测试,快速提升机器人的自然语言理解能力。

AWS ML19天前原文
安大略省审计发现:医生的AI笔记助手可能虚构信息

近年来,许多不堪重负的医生开始使用所谓的AI医疗抄写员,来自动总结患者对话、诊断和护理决策,形成结构化笔记用于健康记录。但安大略省审计长最近的一项审计发现,省政府推荐的AI抄写员经常生成错误、不完整甚至虚构的信息,这“可能导致不充分或有害的治疗方案,进而影响患者健康结果”。 审计长在《安大略省政府人工智能使用情况报告》中,审查了20家经省政府批准预合格的AI抄写员供应商在两个模拟医患对话中的转录测试结果。所有20家供应商在至少一项简单测试中均出现准确性问题,其中9家虚构了患者信息,12家错误记录信息,17家遗漏了讨论的心理健康问题的关键细节。 报告指出多个令人担忧的示例,例如AI抄写员虚构了不存在的血液检测或治疗转诊、错误转录处方药名称,以及遗漏心理健康问题的“关键细节”。在所有获批供应商中,AI抄写员在安大略省供应局评估标准中的“医疗笔记生成准确性”部分平均得分仅为12分(满分20分)。但这一关键指标仅占供应商总评分的约4%,即使AI抄写员在该指标得分为零,也容易达到批准的最低门槛(而衡量“安大略省本地存在”的指标占总评分的30%)。 审计长最终认为,这些AI抄写员“未得到充分评估”。报告谨慎而克制地指出,“必须对AI抄写员系统进行测试,以确保其可靠性”。

Ars Technica19天前原文

实时语音交互正成为 AI 应用的下一个前沿,但构建低延迟、可生产的语音智能体往往需要复杂的工程堆栈。Stream Vision Agents 这一开源框架与 **Amazon Bedrock** 及 **Amazon Nova 2 Sonic** 的结合,正在大幅降低这一门槛。开发者现在可以在几分钟内搭建起能够理解语音、调用工具并支持多语言的实时语音智能体,且具备生产级可靠性。 ## 架构解密:Stream Vision Agents + Amazon Nova 2 Sonic 如何协同工作 Stream Vision Agents 是一个专为实时多模态交互设计的开源框架,它抽象了音频流处理、事件管理和连接维护等底层细节。而 **Amazon Nova 2 Sonic** 是 Amazon Bedrock 上最新推出的语音模型,专为低延迟语音交互优化。两者结合后,开发者只需专注于智能体的业务逻辑,无需关心音频编解码、WebSocket 重连等基础设施。 核心工作流如下: 1. 用户语音通过 Stream Vision Agents 的客户端 SDK 捕获并实时流式传输。 2. 框架将音频流送入 Amazon Bedrock 上的 Nova 2 Sonic 模型进行语音识别与理解。 3. 模型返回文本或结构化响应,框架支持通过 **函数调用**(Function Calling)触发外部 API 或数据库查询。 4. 响应文本由 Nova 2 Sonic 的文本转语音(TTS)能力合成为语音,流式回传给用户。 5. 连接意外中断时,框架内置的 **自动重连** 机制确保会话无缝恢复。 ## 从代码到生产:关键能力一览 以下是该集成方案中值得关注的几项生产级特性: - **函数调用**:智能体可以调用预定义的函数来获取实时数据(如天气、库存、订单状态),而不仅仅是静态回复。例如,用户询问“我的订单什么时候到?”,智能体自动调用订单查询 API 并返回结果。 - **多语言语音支持**:Nova 2 Sonic 原生支持多种语言,包括中文、英文、日文、西班牙语等,且切换语言无需额外配置。这对于构建跨国客服或本地化应用至关重要。 - **自动重连**:网络波动时,Stream Vision Agents 会自动检测断连并重新建立 WebSocket 连接,同时保留会话上下文,避免用户重复表述。 - **低延迟优化**:端到端延迟控制在 **300ms 以内**,达到实时对话所需的“无感知”体验标准。 ## 实战:一个简单的语音助手示例 假设我们要构建一个支持中英文的“会议助手”,能够查询日程和添加提醒。以下伪代码展示核心逻辑: ```python from stream_vision_agents import Agent, BedrockNovaSonic agent = Agent( model=BedrockNovaSonic(model_id="amazon.nova-sonic-v1"), functions=[get_schedule, add_reminder], languages=["zh-CN", "en-US"] ) agent.run() # 启动实时语音交互 ``` 开发者只需定义好函数和模型参数,Stream Vision Agents 会处理音频流的输入输出、自动重连和函数调用路由。相比传统方案,代码量减少约 70%。 ## 行业意义与未来展望 这一集成方案的出现,意味着 **实时语音智能体** 不再是大厂专属。中小团队甚至个人开发者,都可以基于开源框架和云上 API 快速构建生产级应用。场景覆盖客服、语音助手、在线教育、医疗问诊等。 值得注意的是,Stream Vision Agents 本身是开源项目,这意味着社区可以持续贡献新的功能模块(如情感识别、说话人分离),而 Amazon Bedrock 则提供了稳定且可扩展的算力底座。这种“开源+云”的组合模式,正在成为 AI 应用开发的主流范式。 未来,随着多模态模型进一步成熟,这类智能体有望融合视觉信息(如摄像头画面)与语音交互,实现更丰富的场景理解。

AWS ML19天前原文

Amazon QuickSight 宣布推出跨账户 Athena 访问功能,用户现在可以通过 AWS Identity and Access Management (IAM) 角色链,查询其他 AWS 账户中的 Athena 数据,查询费用将计入数据所在账户。 ## 背景:数据孤岛与统一分析的挑战 在企业多云或大型组织中,数据往往分散在不同 AWS 账户中——例如生产环境、测试环境、分析团队各自拥有独立账户。传统上,跨账户查询 Athena 数据需要复杂的数据复制或管道集成,不仅增加延迟和成本,还容易导致数据不一致。 ## 新功能:跨账户 Athena 访问 借助 **跨账户 Athena 访问**,QuickSight 用户无需移动数据即可实现跨账户分析。其核心机制是 **IAM 角色链**:用户通过 QuickSight 的 SPICE 引擎或直接查询模式,利用 IAM 角色跨账户委托权限,从而查询目标账户中的 Athena 表。查询费用直接归属于数据所在账户,简化了成本分摊。 ## 使用场景与价值 - **统一报表**:将多个业务线的数据整合到一个 QuickSight 仪表板,无需数据仓库。 - **合规与治理**:数据保留在原账户,满足数据主权和访问控制要求。 - **成本透明**:查询费用直接计入数据账户,便于按业务部门核算。 ## 技术要点 - 需要配置跨账户 IAM 信任策略,确保 QuickSight 账户可代入目标账户的角色。 - 支持 Athena 工作组的跨账户引用,需确保目标账户的 Athena 工作组已授权。 - 当前功能适用于 **Amazon Athena** 数据源,后续可能扩展至其他服务。 ## 行业意义 这一更新标志着 **无服务器分析** 向更松耦合、更细粒度协作迈进。在 AI 和机器学习工作流中,数据通常分布在训练、推理、日志等多个账户,跨账户查询能力可显著加速数据准备和特征工程环节。 ## 小结 跨账户 Athena 访问是 QuickSight 在“统一洞察”方向上的重要一步,尤其适合多账户架构的组织。它降低了数据移动成本,同时保留了数据治理的灵活性。对于已经在使用 Athena 和 QuickSight 的企业,这是一个值得立即评估的功能。

AWS ML19天前原文