SheepNav

AI 资讯

每日聚合最新人工智能动态

大语言模型(LLM)的成功很大程度上依赖于海量公开数据,但下一个前沿在于解锁私有数据。近日,一篇发表于 arXiv 的论文提出了一种基于联邦学习的跨域基准,用于评估 LLM 在医疗和金融等高度监管领域中对私有数据的微调效果。 该研究由 Daniel M. Jimenez-Gutierrez 等人完成,利用 **Flower 联邦学习平台**,实现了多个机构在不共享原始数据的情况下联合微调共享 LLM。基准测试涵盖四个闭式问答和分类数据集:**MedQA、MedMCQA、FPB 和 FiQA-SA**,分别代表医疗和金融领域。研究者比较了三种参数高效微调(PEFT)策略——**LoRA、QLoRA 和 IA3**,并在非独立同分布(non-IID)设置下评估其性能。 **核心发现**:联邦微调的性能接近集中式训练,且显著优于单机构孤立学习。从绿色 AI 视角看,**QLoRA 和 IA3** 在精度损失有限的情况下大幅提升了效率,证实了联邦 PEFT 是适应私有数据 LLM 的可行方案。这一工作为打破数据孤岛、推动 LLM 在敏感领域的落地提供了实用路径。

HuggingFace18天前原文

机器学习正越来越多地被用于优化系统性能,例如资源管理和网络模拟。然而,与传统ML任务(如图像分类)不同,网络化系统通常在异构、长期运行且动态变化的环境中运行,其输入条件(如网络负载)和操作目标会随时间或环境变化。现有学习型系统对自适应支持不足,导致模型训练成本高、数据收集量大、系统性能下降且响应缓慢。 **EMA:系统驱动、数据为中心的自适应框架** 在SIGCOMM 2026上发表的论文《EMA: Efficient Model Adaptation for Learning-based Systems》中,研究者提出了**EMA**,这是首个支持学习型系统适应动态环境的模型自适应系统,旨在以最小的操作开销实现高效自适应。EMA采用系统驱动、数据为中心的方法,兼容多种系统和模型设计,并解决两个关键部署挑战: 1. **降低训练成本**:通过引入**状态变换器(state transformers)**,将新环境的输入状态与先前相似状态对齐,使模型能够“热启动”自适应过程,从而减少昂贵的模型训练。 2. **优化数据标注**:数据标注——即收集各种系统决策的真实标签——往往成本高昂且被忽视。EMA通过优先标注高效用数据,并平衡训练与标注成本之间的权衡,显著降低标注开销。 **显著性能提升与成本降低** 在八个代表性学习型系统上的评估显示,EMA能够将自适应成本(如GPU训练时间)降低**14.9%至42.4%**,同时将系统性能(如网络吞吐量)提升**6.9%至31.3%**。这一结果充分证明了EMA在真实环境中的有效性。 **行业背景与意义** 随着AI驱动的系统在数据中心、边缘计算和物联网中广泛部署,环境动态性成为制约系统性能的关键瓶颈。传统的静态模型部署方式无法应对负载波动、硬件异构或目标变化。EMA提供了一种轻量级、系统级的自适应方案,无需重新设计模型即可快速适应新环境,这对于降低运维成本、提升服务质量具有重要意义。 **小结** EMA为学习型系统的自适应问题提供了一种高效、实用的解决方案。通过状态变换和智能数据标注,它在不牺牲性能的前提下大幅降低了自适应开销。未来,该框架有望在更多动态系统中得到应用,推动学习型系统从实验室走向真实部署。

HuggingFace18天前原文

## 背景:视觉监控的“复用”难题 在自动驾驶、机器人等安全关键系统中,运行时监控(Runtime Monitoring)通过摄像头图像推断车辆或行人位置等安全相关量,并验证其是否满足时序逻辑规范。传统方法每换一条规范就要重新训练和校准模型,成本高昂且难以扩展。 ## 核心贡献:语义基与滚动预测监控器 来自亚利桑那州立大学等机构的研究人员提出了一种**可复用监控框架**:只需训练和校准一次,就能为同一目标片段内的任意公式提供有限样本保证,无需针对每条公式重新训练。 **语义基(Semantic Basis)**:论文证明,当规范由有限个时序原子(temporal atoms)的字典生成时,这些原子的鲁棒性得分向量构成了一个**语义基**。任何公式的鲁棒性都可以通过一个由解析树导出的确定性解码器计算得出。更重要的是,该语义基是单调且1-利普希茨的,因此只需一次共形校准(conformal calibration)即可覆盖整个片段,无需联合界(union bound)。 **滚动预测监控器(Rolling Prediction Monitor)**:另一种方案是只预测当前时刻的谓词值,并在线重建历史轨迹。这种方法更容易学习,但在长时域下会变得保守。 ## 实验结果:短长时域各有千秋 在行人过街基准测试中,滚动监控器在短时域下取得了更紧的认证界,而语义基监控器在长时域下**认证界紧度最高可达4倍**。在真实世界的Waymo驾驶数据上,两种监控器均经验证满足了共形覆盖保证。 ## 意义与展望 这项研究为视觉感知下的形式化验证提供了实用工具,尤其适用于自动驾驶场景中规范频繁变动的情况。未来工作可探索更复杂的时序算子、多摄像头融合以及在线自适应校准。

HuggingFace18天前原文

## 从黑箱到可解释:稀疏自编码器如何“翻译”EEG基础模型 脑电图(EEG)基础模型在临床诊断中已取得顶尖表现,但其内部决策机制如同黑箱,严重阻碍了临床信任。近日,来自多所机构的研究团队在预印本中提出了一种基于**TopK稀疏自编码器(SAEs)** 的机械可解释性框架,系统分析了三种架构迥异的EEG Transformer——SleepFM、REVE和LaBraM。 ### 核心方法:稀疏特征提取与临床标签对齐 研究团队首先在三个模型的嵌入层上训练TopK稀疏自编码器,提取出稀疏特征字典。这些特征随后与临床分类体系(包括异常、年龄、性别、用药等标签)进行对齐,以评估特征的**单义性**和**纠缠程度**。通过一种基于字典健康检查的单一超参数流程,该方法可跨架构稳健迁移,无需针对每个模型单独调参。 ### 概念操控揭示三种表征状态 利用**概念操控**技术,研究者定义了目标与脱靶探针区域指标,量化了操控的选择性。结果显示,模型内部概念存在三种状态: - **可选择操控**:可以精准增强或抑制特定概念(如病理慢波)。 - **编码但纠缠**:概念虽被编码,但与其他概念深度耦合,无法独立操控。 - **未编码**:模型根本未表征该概念。 ### 关键发现:临床相关的表征缺陷 该框架暴露了重要的表征问题: - **“破坏球”干预**:某些操控会整体摧毁模型性能,如同在精密仪器中挥舞大锤。 - **临床纠缠**:例如**年龄与病理混淆**——试图抑制年龄特征时,病理特征也同时被破坏,反之亦然。这种纠缠在临床场景中可能造成误导性诊断。 ### 从潜变量到可解释频谱 为连接神经科学背景,团队设计了一种**频谱解码器**,将潜空间中的操控映射回EEG的幅度谱。例如,病理慢波抑制和α频段恢复等干预,现在可以被直接解读为具体的频率变化,为临床医生提供了直观的生理学解释。 ### 意义与展望 这项工作首次对多个EEG基础模型进行了系统性的机械可解释性分析,不仅揭示了模型内部表征的共性缺陷,还提供了诊断和修复这些问题的工具。随着EEG基础模型逐步进入临床部署,此类可解释性框架将成为建立医生信任、保障患者安全的必要基石。未来,将这一方法扩展到更多模型和真实临床数据集,并开发自动化的“模型健康检查”工具,将是重要的研究方向。

HuggingFace18天前原文

arXiv:2605.13932v1 Announce Type: new Abstract: Robust prediction of molecular properties under extreme out-of-distribution (OOD) scenarios is a pivotal bottleneck in AI-driven drug discovery. Current scaffold-splitting protocols fail to obstruct microscopic semantic overlap, predisposing models to shortcut learning and overestimating their true extrapolation capability; meanwhile, conventional domain adaptation paradigms suffer under extreme structural shifts, as blindly aligning heterogeneous

HuggingFace18天前原文

扩散磁共振成像(dMRI)的结构连接组分析长期受困于跨站点、扫描仪和协议带来的采集变异性。传统降维方法将所有变异视为连续,导致采集效应与生物变异混杂。近期混合潜在空间模型尝试结合离散与连续成分,但需手动调节容量。本文提出一种无监督框架,通过**架构退火**(architectural annealing)自适应平衡离散与连续潜在变量,无需手动调参。研究基于**7,416个结构连接组**(年龄2-102岁,13项研究,25种采集参数组合),对比标准VAE、PCA+k-means及损失退火混合模型。结果显示,架构退火在站点识别上取得**ARI=0.53**(p<0.05),显著优于基线。该工作为dMRI数据中分离采集效应与生物变异提供了有效无监督机制,有望提升多中心神经影像研究的可重复性。 ## 背景:连接组分析中的采集变异性挑战 多中心dMRI研究因硬件、序列和协议差异引入系统性变异。传统方法如PCA、VAE将所有变异映射到连续空间,难以区分“真正”的生物差异与采集噪声。混合潜在空间模型(如离散+连续变量)可分别建模类别效应(如站点)与连续效应(如年龄),但离散成分的容量需手动设定,限制了实用性。 ## 方法:架构退火实现自适应平衡 作者提出**无监督混合模型**,核心创新在于**编码器输出退火**:在训练过程中逐步调整编码器输出的“温度”参数,使模型从完全连续表示过渡到离散与连续混合。相比仅通过损失函数退火(如β-VAE),架构退火更直接地控制潜在空间的拓扑结构。模型使用变分自编码器(VAE)框架,离散成分采用Gumbel-Softmax分布,连续成分采用高斯分布。 ## 实验:大规模多中心数据集验证 数据集包含**7,416个结构连接组**,来自**13项研究**,覆盖**25种独特采集参数组合**。参与者年龄2-102岁,包括**5,900名认知正常**、**877名轻度认知障碍(MCI)**和**639名阿尔茨海默病(AD)**患者。评估指标采用**调整兰德指数(ARI)**衡量站点聚类准确率。 ## 结果:显著优于基线方法 架构退火模型在站点识别上达到**ARI=0.53**(p<0.05),优于标准VAE(ARI=0.21)、PCA+k-means(ARI=0.35)及仅损失退火的混合模型(ARI=0.42)。进一步分析显示,离散成分成功捕捉了采集参数(如b值、方向数)的类别差异,而连续成分保留了年龄、疾病状态等生物变异。 ## 意义与展望 该工作为**多中心dMRI标准化**提供了新思路:无需手动标注采集参数,即可无监督分离采集变异。未来可扩展至其他模态(如fMRI),或与纵向研究结合,提升跨站点生物标志物检测的可靠性。

HuggingFace18天前原文

扩散语言模型(Diffusion Language Models)作为自回归模型的一种有前景的替代方案,近年来受到越来越多关注。然而,针对这类模型的后训练方法大多沿用传统的奖励最大化目标。来自一项最新研究(arXiv:2605.13935)的学者指出,这种做法存在一个关键缺陷——他们称之为 **“轨迹锁定”** 。 ### 什么是轨迹锁定? 简单来说,当模型在采样过程中被奖励信号驱动更新时,概率质量会过度集中到少数几条“成功”的去噪路径上,导致模型在重复采样时无法覆盖其他同样正确的解决方案。这种模式寻求行为虽然能在单次采样中提高奖励,却牺牲了输出的多样性,尤其对需要探索多种解法的数学推理和代码生成任务而言,危害显著。 ### TraFL 的解决方案 为了解决这一问题,研究团队提出了 **TraFL(Trajectory Flow baLancing,轨迹流平衡)** 方法。其核心思想是:不再单纯追求最大化奖励,而是训练策略去逼近一个**奖励倾斜的目标分布**,同时通过一个冻结的参考模型来保持稳定性。 为了实现这一目标,TraFL 引入了两个关键组件: - **扩散兼容的序列级替代目标**:使得轨迹平衡目标能够适用于扩散语言模型的离散序列生成过程。 - **学习的提示相关归一化项**:让模型能够根据不同的输入提示动态调整,提升灵活性。 ### 实验表现:全面超越基线 研究者在数学推理和代码生成多个基准上进行了评估。结果显示,**TraFL 是唯一一种在所有基准-长度设置下均能提升基础模型性能的后训练方法**,并且随着采样预算增加,其优势持续扩大。 更值得注意的是,这些改进具有良好的泛化能力: - 在 **Minerva Math** 数据集上,TraFL 始终保持在基础模型之上。 - 在 **LiveCodeBench** 的每一个难度层级上,TraFL 均取得了最优结果。 ### 行业意义与未来方向 这项研究揭示了一个重要问题:直接套用强化学习中的奖励最大化目标,对于扩散语言模型可能并非最优。TraFL 的轨迹平衡思路为后训练开辟了新方向,兼顾了奖励优化与输出多样性。 当然,该方法在实际部署中是否计算开销过大、能否扩展到更大规模的模型,仍有待进一步验证。不过,对于追求高质量生成同时希望保持探索能力的应用场景——比如自动代码修复、多步推理问答——TraFL 无疑提供了一条值得尝试的路径。

HuggingFace18天前原文

### 核心突破:记忆架构的“双层次”自进化 大语言模型(LLM)智能体在跨会话任务中依赖长期记忆,但现有系统仅让存储内容动态更新,而检索机制(如评分函数、融合策略、答案生成规则)在部署后便固定不变。这一缺陷限制了智能体的持续适应能力。 最新论文《EvolveMem: Self-Evolving Memory Architecture via AutoResearch for LLM Agents》提出了一种**自进化记忆架构**,首次实现记忆存储与检索机制的协同进化。其核心是将完整的检索配置暴露为结构化动作空间,由一个 **LLM驱动的诊断模块** 进行优化。 ### 工作原理:闭环自研(AutoResearch) EvolveMem 的工作流程类似一个自动化研究循环: 1. **诊断**:模块读取每个问题的失败日志,识别根因; 2. **调整**:提出针对性的配置调整方案; 3. **验证**:通过“回退退化”和“停滞探索”双重保护机制,确保进化稳定。 这种设计使系统从极简基线出发,**自动收敛到高效检索策略**,甚至能发现原始动作空间中不存在的全新配置维度。 ### 性能表现:显著超越现有基线 在 **LoCoMo** 基准上,EvolveMem 相对最强基线提升 **25.7%**,相比极简基线提升 **78.0%**;在 **MemBench** 上,相对最强基线提升 **18.9%**。更关键的是,进化后的配置在跨基准迁移时表现出**正向迁移**,而非灾难性遗忘,表明自进化过程捕获了通用检索原理,而非基准特定的启发式规则。 ### 行业意义与未来展望 EvolveMem 打破了记忆系统“存储进化、检索固定”的范式,为构建真正自主的 LLM 智能体提供了新思路。其 **AutoResearch 机制** 有望减少人工调参成本,推动智能体在复杂长程任务中的落地应用。论文代码已开源。 > 对于 AI 从业者而言,这项研究提示我们:**智能体的自适应能力不仅在于“记住更多”,更在于“学会如何检索”**。当记忆系统学会自我优化,智能体的持续学习能力将迈上新台阶。

HuggingFace18天前原文

摩托罗拉首款书本式折叠屏手机 Razr Fold 直面三星 Galaxy Z Fold 7 和谷歌 Pixel 10 Pro Fold 的激烈竞争,但仍凭借独特优势脱颖而出。 ## 轻薄设计:Razr Fold 的杀手锏 在折叠屏手机中,**轻薄**是影响日常使用体验的关键。Razr Fold 在厚度和重量上表现突出,展开后仅 **4.4mm**,重 **198g**,比三星 Galaxy Z Fold 7(展开 5.6mm,重 239g)和谷歌 Pixel 10 Pro Fold(展开 5.2mm,重 228g)都更轻更薄。这使得 Razr Fold 在单手操作和便携性上优势明显,尤其适合注重随身携带的用户。 ## 屏幕与铰链:各有千秋 三款手机均配备 **8 英寸左右的内屏**,但外屏设计差异较大:Razr Fold 采用 **3.6 英寸外屏**,便于快速查看通知;Galaxy Z Fold 7 延续 **6.3 英寸外屏**,更像传统手机;Pixel 10 Pro Fold 则提供 **5.8 英寸外屏**,兼顾单手操作与信息显示。 铰链方面,三星的 **Flex 铰链** 支持多角度悬停,谷歌的铰链阻尼感适中,而摩托罗拉的 **水滴铰链** 在折叠后几乎无缝隙,且折痕控制出色。 ## 性能与相机:旗舰水准 三款手机均搭载顶级芯片:Razr Fold 采用 **骁龙 8 Gen 4**,Galaxy Z Fold 7 配备 **Exynos 2500**(部分地区为骁龙 8 Gen 4),Pixel 10 Pro Fold 使用 **Tensor G5**。日常使用流畅度相当,但游戏性能上骁龙芯片略占优势。 相机方面,Razr Fold 主摄为 **50MP**,支持 OIS,但缺乏长焦镜头;Galaxy Z Fold 7 搭载 **50MP 主摄 + 10MP 长焦 + 12MP 超广角**,焦段覆盖更全;Pixel 10 Pro Fold 则凭借 **Google 计算摄影** 在夜景和人像模式上表现最佳。 ## 软件体验:定制与原生之争 摩托罗拉提供接近原生的 **MyUX** 系统,功能简洁且广告少;三星的 **One UI 6.1** 功能最丰富,但预装应用较多;谷歌的 **Pixel UI** 则主打纯净与及时更新,并独占一些 AI 功能(如 Magic Eraser)。 ## 价格与购买建议 Razr Fold **起售价 $1,299**,低于 Galaxy Z Fold 7($1,899)和 Pixel 10 Pro Fold($1,799)。如果你追求 **极致轻薄和性价比**,Razr Fold 是最优解;若需要 **全能旗舰体验**(尤其是长焦和 S Pen 支持),Galaxy Z Fold 7 更合适;而 **摄影爱好者和原生系统粉丝** 可考虑 Pixel 10 Pro Fold。 ## 小结 三款折叠屏手机各有侧重,但 Razr Fold 凭借轻薄设计和亲民价格成为本次横评的 **首选推荐**。不过,最终选择仍需根据个人对重量、相机和软件的偏好来决定。

ZDNet AI18天前原文

每天佩戴耳机对耳朵的影响比你想象的要大。但你的设备很可能具备保护听力的功能。 ## 什么是“60-60法则”? 听力健康专家推荐的“60-60法则”指出:**听音乐的音量不应超过最大音量的60%,且每次连续听音不超过60分钟**。保护听力至关重要,因为一旦内耳受损,损伤是不可逆的。 ## 听力损伤是如何发生的? 耳朵内部有一个叫做耳蜗的螺旋形器官,它将声音振动转化为电信号供大脑解读。耳蜗内外有数千个毛细胞,它们通过感知细胞器检测、转换、锐化和放大声音。**过大的音量会损伤或破坏这些毛细胞,且它们无法再生**。一旦受损,永久性听力损失便随之而来。 ## 为什么保护听力关乎整体健康? 根据2020年《柳叶刀》委员会报告,**听力损伤是12个可改变的痴呆症风险因素之一**。保护听力不仅关乎听觉,还与认知健康密切相关。随着耳机和耳塞几乎时刻佩戴在我们耳朵上,这一担忧愈发突出。 ## 你的设备如何帮助你? 许多耳机和耳塞在配套应用中提供了设置,**当听音时间过长或音量过大时发出通知**。有些耳机甚至能自动降低音量。善用这些功能,可以让你在享受音乐的同时保护听力。 ## 小结 遵循“60-60法则”是一个简单有效的听力保护策略。借助现代设备的智能提醒,你可以在不牺牲听觉体验的前提下,为未来的听力健康投资。

ZDNet AI18天前原文

Google Maps 开箱即用体验不错,但为了兼顾隐私与效率,每次换新手机后,我会立刻调整以下 10 项设置。 ## 1. 关闭位置记录 位置记录会保存你去过的每个地方。在 **设置 > 个人内容 > 位置记录** 中关闭它,防止行程数据长期留存。 ## 2. 开启隐身模式 在个人资料头像点击 **开启隐身模式**,搜索和导航记录都不会关联到你的账号,适合临时使用。 ## 3. 关闭“与你共享” 在 **设置 > 通知 > 与你共享** 中关闭,避免朋友推荐的地点频繁打扰。 ## 4. 调整导航语音为“仅提示” 在 **设置 > 导航设置 > 语音提示** 中选择“仅提示”,减少播报频率,只保留关键转弯提醒。 ## 5. 关闭自动下载离线地图 在 **设置 > 离线地图 > 自动下载** 中关闭,避免流量和存储空间被意外占用。 ## 6. 自定义车辆图标 在 **设置 > 导航设置 > 车辆图标** 中选择喜欢的车型,让导航界面更个性化。 ## 7. 添加家庭和工作地址 在 **设置 > 编辑个人资料 > 地址** 中录入,快速规划路线。 ## 8. 开启实时路况预测 在 **设置 > 导航设置 > 路况** 中开启,提前避开拥堵。 ## 9. 调整地图显示偏好 在 **设置 > 地图显示** 中关闭“卫星视图”以节省流量,或开启“地形”以便户外活动。 ## 10. 管理已连接的设备 在 **设置 > 已连接的设备** 中移除旧手机或车载系统,防止隐私泄露。 这些调整只需几分钟,却能显著提升使用体验和隐私保护水平。

ZDNet AI18天前原文

我从来不是折叠屏手机的忠实粉丝,它们不错,但我始终不太理解其魅力所在——它们真的比传统直板手机更好吗?然而,在体验了摩托罗拉最新款**Razr Fold**之后,我的看法开始改变了。这款售价**1900美元**的折叠屏手机凭借其惊艳的OLED屏幕、出色的摄像头和顶级硬件,成为我2026年用过的**最喜欢的手机之一**。 ## 设计与显示:折叠屏的视觉盛宴 Razr Fold配备了两块**色彩鲜艳的OLED屏幕**,无论是展开后的主屏还是外屏,显示效果都令人印象深刻。折叠状态下,外屏可以快速处理通知、自拍等任务;展开后则是一块宽敞的内屏,适合多任务处理和媒体消费。机身设计延续了摩托罗拉的**高端质感**,做工精致,折叠铰链手感扎实,开合顺畅。 ## 性能与续航:旗舰级表现 在性能方面,Razr Fold搭载了顶级处理器,配合优化的软件,日常使用**流畅无卡顿**。电池续航也令人满意,足以支撑一天的重度使用。不过,该机仅提供**一种存储配置**,且**1900美元**的定价偏高,可能让部分消费者望而却步。 ## 摄像头:折叠形态的影像优势 摄像头是Razr Fold的一大亮点。借助折叠形态,用户可以**利用后置主摄进行自拍**,获得比传统前置镜头更好的画质。实际拍摄样张色彩自然、细节丰富,在低光环境下也有不错的表现。 ## 总结:折叠屏终于打动了我 虽然Razr Fold价格不菲,但它在显示、性能和影像上的综合表现,让我开始重新审视折叠屏手机的价值。如果你愿意为**创新形态和顶级体验**买单,这款手机值得考虑。

ZDNet AI18天前原文
马斯克诉奥特曼案:没有赢家的庭审闹剧

一场备受瞩目的科技巨头诉讼案正在美国联邦法院上演。埃隆·马斯克起诉 OpenAI 及其 CEO 萨姆·奥特曼,指控其背离了 OpenAI 创立时“非营利、造福人类”的初衷。然而,随着庭审推进,一个更清晰的画面浮现:**这场官司没有真正的赢家,反而让所有参与者都显得狼狈不堪**。 ## 庭审焦点:理想与现实的碰撞 马斯克的诉讼核心在于,OpenAI 从一家非营利研究机构转型为商业公司,并与微软达成数十亿美元的合作,这严重违背了其创立时的使命宣言。马斯克本人曾是 OpenAI 的联合创始人和早期资助者,但于 2018 年退出董事会。他认为,奥特曼和董事会利用“非营利”的幌子吸引人才和捐款,随后却转向追求利润。 然而,法庭上披露的证据显示,马斯克本人也曾推动 OpenAI 走向商业化。内部邮件和证词表明,马斯克曾提议将 OpenAI 并入特斯拉,并希望获得多数股权和控制权。当这些提议被拒绝后,他才选择离开。这一事实削弱了他作为“纯粹理想捍卫者”的形象。 ## 谁才是真正的“输家”? 庭审揭示了多个层面的失败: - **马斯克**:他试图通过诉讼重塑叙事,但自己的言行矛盾被曝光。他一边批评 OpenAI 商业化,一边自己也在特斯拉和 xAI 推动 AI 的商业应用。这种双重标准让他的道德高地变得可疑。 - **奥特曼与 OpenAI**:虽然 OpenAI 辩称商业化是获取算力和人才的必要路径,但庭审中暴露的内部权力斗争和决策混乱,损害了其“透明、开放”的品牌形象。投资者和公众开始质疑:OpenAI 的治理结构是否真的能防止利益冲突? - **AI 行业整体**:这场官司加剧了公众对 AI 发展方向的焦虑。当两位最具影响力的科技领袖在法庭上互相攻讦时,外界看到的不是对 AI 安全的深思熟虑,而是个人野心与公司利益的纠缠。这无助于建立社会对 AI 的信任。 ## 行业启示:非营利与商业化的悖论 此案的核心矛盾——非营利使命与商业现实之间的张力——并非 OpenAI 独有。许多 AI 研究机构都面临类似的困境:训练前沿模型需要巨额资金,而这往往只能通过商业合作或风险投资获得。但一旦引入资本,控制权和决策权就会不可避免地转移。 马斯克诉奥特曼案提醒我们:**没有任何组织能永远保持纯粹的理想主义**。关键在于,如何在商业化过程中保留对公共利益的承诺,并建立有效的治理机制。目前,OpenAI 的转型过程显然缺乏透明度,而马斯克的攻击则更多是出于个人恩怨而非建设性批评。 ## 庭审仍在继续,但结局已不重要 联邦陪审团尚未作出裁决,但无论结果如何,这场诉讼已经造成了伤害。它消耗了司法资源,分散了行业对真正重要问题(如 AI 安全、伦理、就业影响)的注意力,并让两位关键人物在公众面前形象受损。 或许,真正的输家是那些期待科技领袖能负责任地引导 AI 发展的人们。在法庭的聚光灯下,理想主义的外衣被撕开,露出的是权力、金钱和自我的复杂交织。**AI 的未来不应由法庭判决来定义,而需要更广泛的行业共识和公共讨论**。

WIRED AI18天前原文

九名加州陪审员正在审议 OpenAI 的未来,这起科技界年度最大案件的核心并非 AI 技术本身,而是围绕**慈善信托、不当得利**等法律问题。案件源于埃隆·马斯克对 OpenAI 及其联合创始人 Sam Altman、Greg Brockman 以及微软的诉讼,指控他们违背了最初的慈善承诺。陪审团需要裁决的关键问题包括: ### 三项核心指控 - **违反慈善信托**:马斯克声称,他捐赠给 OpenAI 的资金附带明确条件——用于特定的慈善目的(开发安全、普惠的 AGI),而非被非营利组织的营利部门随意使用。被告是否违反了这一信托义务? - **不当得利**:被告是否利用马斯克的捐款,通过 OpenAI 的营利分支为自己谋利,而非用于慈善初衷? - **协助与教唆违反信托**:微软在与 OpenAI 合作时,是否知晓马斯克捐赠的特殊条件,并实质性参与了损害马斯克权益的行为? ### OpenAI 的三项抗辩 OpenAI 则提出三大法律屏障,陪审团亦需权衡: 1. **诉讼时效**:若 OpenAI 能证明部分指控的“损害”发生在法定时效之前(例如第一项指控需在 2021 年 8 月 5 日前),则相关诉求失效。 2. **不合理延迟**:马斯克直至 2024 年才提起诉讼,其延迟行为使损害赔偿请求失去合理性。 3. **不洁之手**:马斯克自身在相关事件中的行为存在不妥,因而无权主张对方违法。 ### 潜在影响 若马斯克胜诉,OpenAI 可能被迫终止其营利性架构,回归纯非营利模式。然而,即便陪审团作出不利于 OpenAI 的裁决,具体后果仍需法官在后续听证中裁定——例如是否强制拆分营利部门或返还捐款。反之,若 OpenAI 胜诉,则可能为科技公司从非营利转向营利铺平道路,引发行业效仿。 这场诉讼的判决不仅关乎 OpenAI 的命运,更可能为 AI 治理与科技慈善设立法律先例。陪审团的裁决预计将在未来数周内揭晓。

TechCrunch18天前原文

今天,马斯克诉奥特曼案进入结案陈词阶段。这场备受瞩目的庭审,与其说是法律较量,不如说是一场充满戏剧性的“拆车大赛”。马斯克的律师史蒂文·莫洛在陈词中频频出错,甚至将共同被告格雷格·布罗克曼误称为“格雷格·奥特曼”,并错误地声称马斯克没有索要金钱,被法官当场纠正。莫洛声称庭审中出现了许多谎言,但未能为马斯克的法律主张提供有力证据。 OpenAI的律师莎拉·埃迪则通过按时间顺序整理的大量证据进行反击,她并未试图粉饰任何一方的可靠性,但一针见血地指出:“就连他孩子的母亲都不支持他的说法。”另一位律师威廉·萨维特则展示了马斯克多次“记不清”关键细节的次数,并质疑一位精明的商人为何看不懂OpenAI发给他的四页条款清单。 这场庭审的真正看点或许在于爆出的“八卦”:马斯克曾利用OpenAI改进其AI公司xAI。早在2024年,业界就对Grok模型的快速开发速度表示怀疑,如今马斯克本人承认xAI确实“蒸馏”了其他模型,印证了此前的猜测。 整体而言,这场庭审更像一场公开的爆料大会,而非严肃的法律程序。尽管双方律师尽力交锋,但核心法律问题似乎被淹没在个人恩怨与行业八卦之中。

The Verge19天前原文

自今年 2 月 SpaceX 与 xAI 合并为 SpaceXAI 以来,已有超过 50 名研究人员和工程师离职,引发外界对其人才留存能力和模型研发前景的担忧。据 The Information 报道,离职人员包括编码、世界模型和 Grok 语音等关键团队的负责人,核心预训练团队仅剩寥寥数人。竞争对手 Meta 和 Mira Murati 创立的 Thinking Machine Labs 成为主要“接盘方”,分别吸纳了至少 11 名和 7 名前员工。 预训练团队的流失尤为引人注目。该团队前负责人 Juntang Zhuang 离职后,剩余成员也相继离开。预训练是构建新 AI 模型的第一步,大量核心成员出走引发了内部与外界对 SpaceXAI 是否仍致力于开发领先模型的质疑。 离职潮背后有多重原因。首先,Musk 在旗下公司(包括特斯拉)推行的“极端工作文化”再次成为焦点。有知情人士透露,Musk 为模型训练设定了不切实际的截止日期,导致 Grok 开发过程中“偷工减料”。其次,SpaceX 定期提供股票回购机会,员工可提前变现受限股票,加之公司 IPO 预期强烈,使得员工在获得财务回报后更不愿承受高压工作。 值得注意的是,部分离职发生在合并公告之后,包括两位联合创始人。SpaceX 在 2 月完成对 xAI 的收购后,已为合并公司任命了新领导层,并于本月早些时候正式更名为 SpaceXAI。TechCrunch 此前已报道其中 11 起离职事件。 人才大规模外流对 SpaceXAI 的长期竞争力构成挑战。在 AI 军备竞赛白热化的当下,顶尖人才的流失可能削弱其模型迭代速度与技术护城河。Musk 能否在保持高强度创新文化的同时留住核心团队,将决定 SpaceXAI 在日益拥挤的市场中能否站稳脚跟。

TechCrunch19天前原文

Anthropic 近日在 GitHub 上开源了 **Claude for Legal** 项目,一套专为法律工作流设计的参考智能体、技能和数据连接器。该项目覆盖了公司法务、隐私、产品、公司治理、雇佣、诉讼、监管、AI 治理、知识产权以及法学院教学等常见场景,旨在通过 AI 辅助提升律师的工作效率,但明确强调输出仅为草稿,需律师最终审核。 ## 项目核心:即装即用的智能插件 项目提供了两种部署方式:作为 **Claude Cowork** 或 **Claude Code** 插件安装,或通过 **Claude Managed Agents API** 集成到自有工作流引擎中。相同的系统提示和技能集,用户可选择运行环境。安装过程简单,只需遵循 Quickstart 指南,60 秒内即可完成。 实践领域插件覆盖企业内部、律所和学术法律工作,每个插件都包含“冷启动访谈”功能,可学习用户的操作手册,并配有 **CLAUDE.md** 实践配置文件,供所有技能读取。此外,项目还提供托管智能体菜谱,用于定时监控任务,如续约提醒、案卷监控、监管动态跟踪、尽职调查网格和产品发布雷达。 ## 连接器生态:打通法律与通用工具 MCP 连接器支持通用生产力工具(Slack、Google Drive、Box)和法律专用系统(Ironclad、DocuSign、iManage、Everlaw、CourtListener 等)。这意味着律师可以在一个界面中调取合同管理系统、电子发现平台和法院数据库,实现跨系统工作流自动化。 ## 安全与责任边界:AI 辅助,律师负责 项目明确设定了严格的使用边界: - 所有输出均为 **律师审核草稿**,不构成法律建议、法律结论或律师替代品。 - 内置防护措施包括:每条引用的来源归属、关于特权和主观法律判断的保守默认设置、管辖假设的明确提示,以及在文件提交、发送或依赖前设置明确的门槛。 - 律师需对离开工作环境的任何内容进行审核、验证并承担专业责任。这些插件加速审核过程,但不可替代律师的判断。 - 插件不代表 Anthropic 的法律立场,其中包含的清单项、建议框架、风险标记或判例法/监管指南的特征描述,均仅为辅助律师分析的工具,而非 Anthropic 对法律的观点。许多法律领域尚不确定且不断演变,使用插件的律师——而非插件或 Anthropic——对其工作成果中的法律立场负责。 ## 行业意义:法律 AI 从工具到工作流的演进 Claude for Legal 的开源标志着 AI 在法律行业的应用从单一问答工具向 **可定制、可集成的工作流平台** 转变。传统法律 AI 产品多聚焦于合同审查或法律研究,而 Claude for Legal 提供了覆盖完整法律业务线的插件体系,并支持用户自定义技能和连接器。这种开放架构降低了律师事务所和企业法务部门采用 AI 的门槛,同时也通过明确的责任划分解决了行业对 AI 合规性的担忧。 对于法学院和学术机构,项目还包含了面向教学的插件,有助于学生在模拟环境中学习法律实务。随着 AI 在法律领域的渗透加速,Claude for Legal 可能成为律师数字化工作流的重要基础设施。

Hacker News22519天前原文

在 **马斯克诉奥特曼** 一案中,一座看似少年棒球联盟奖杯的物件引发了关注。它并非普通奖杯,而是 OpenAI 员工为研究科学家 **Josh Achiam** 购买的纪念品,上面刻着:“永远不要停止做一个混蛋。” 这一事件的背景源于马斯克离开 OpenAI 时的争执。当时,马斯克表示要超越 Google,而专注于 AI 安全的 Achiam 质疑这是否明智,马斯克随即称其为“混蛋”。多年后,马斯克在诉讼中声称是为了防止 AI 造成严重危害,但奥特曼团队指出,他当年并不关心这个问题。 在庭审中,马斯克否认了该事件,称自己可能只是说了“别当混蛋”。法官 **Yvonne Gonzalez Rogers** 裁定,除非马斯克团队给 OpenAI 引入该奖杯的理由,否则陪审团不得看到它。然而,公众现在得以一窥这座奖杯的真容。

The Verge19天前原文

OpenAI 宣布其 AI 编程工具 **Codex** 正式集成至 **ChatGPT 移动应用**(iOS 和 Android),用户现可通过手机远程监控和管理开发工作流。 此次更新允许用户随时随地查看 Codex 的实时运行环境,并跨所有线程操作,包括审查输出、批准命令、切换模型或启动新任务。OpenAI 表示,这不仅仅是远程控制单个任务或向电脑派发新指令,而是实现了全面的移动端工作流管理。 Codex 于大约一年前发布,是 OpenAI 针对编程场景推出的智能体工具。上个月,OpenAI 已为 Codex 增加了桌面端后台运行能力,使其能自主处理多项任务;本月早些时候,还推出了 Chrome 扩展,支持在实时浏览器会话中工作。 值得注意的是,Anthropic 在二月份也发布了类似功能 **Remote Control**,允许用户远程监控 Claude Code 的运行。两家公司在 AI 编程智能体领域的密集更新,反映出双方对“谁将成为最广泛使用的编程工具”的激烈竞争。过去一年,Anthropic 的 Claude Code 在企业和技术人员中人气攀升,但两者仍被广泛使用。 目前该更新处于预览阶段,所有 ChatGPT 付费计划用户均可使用。

TechCrunch19天前原文
Meta内部工程师抗议笔记本监控,请愿书已获数千人支持

Meta 公司近期在员工中引发了一场关于隐私与数据利用的激烈争议。据内部消息,一名工程师在公司内部论坛发布了一篇帖子,反对 Meta 强制安装的笔记本监控软件,该帖子迅速获得近 2 万名同事阅读。这款软件被称作“模型能力计划”,自去年底起在美国员工电脑上部署,能够记录屏幕操作、鼠标移动和键盘敲击,目的是收集“人们实际使用计算机的真实示例”,用于训练 AI 模型。 该工程师在帖子中直言:“自私地说,我不希望自己的屏幕被截取,因为这侵犯了我的隐私。但放眼全局,我不希望生活在一个人类——无论是员工还是其他人——被利用来提供训练数据的世界。”他呼吁同事支持一份自上周四开始在公司内部流传的请愿书,要求终止该计划。请愿书明确指出:“任何规模的公司都不应被允许在未经同意的情况下提取员工数据用于 AI 训练,这不应成为常态。” 这一事件折射出 AI 行业在数据收集方式上的新动向。以往,企业训练智能体 AI 模型时,通常招募自愿参与者(有时提供报酬)来记录其操作行为。而 Meta 选择直接从员工身上采集数据,尽管在美国雇主对工作设备拥有广泛的监控权限,但将监控数据直接用于 AI 训练仍属罕见做法。 目前,Meta 尚未公开该数据收集项目是否已取得实质成果。公司内部对 AI 的态度也颇为矛盾:许多员工享受 AI 带来的编程便利,但同时对其社会影响深感忧虑。一位工程师写道:“我一方面很喜欢用 AI 写代码,另一方面又对它的世界影响感到非常不安。我们正在建立怎样的技术使用规范?人们将如何被对待?” 尽管请愿活动已持续数周,Meta 尚未宣布任何调整计划。这场风波不仅关乎员工隐私,更触及了 AI 时代数据伦理的核心问题:当企业同时扮演雇主和 AI 开发者角色时,员工的数据权益该如何界定?

WIRED AI19天前原文