AI 资讯

每日聚合最新人工智能动态

581

NEST：用“体制感知”混合专家模型攻克数据集级分布漂移

新上线

## 当时间序列预测遭遇“体制切换”：NEST 的解题思路在金融、气象、网络运维等复杂系统中，长期预测的准确性经常被**数据集级别的分布漂移**（dataset-level distribution shift）所困扰。这种漂移并非简单的局部时序变化，而是源于系统内部多种潜在行为模式（即“体制”）的切换与组合。例如，网络流量可能在工作日、节假日、攻击事件下呈现截然不同的特征；物理系统的动力学状态也会随外部条件发生结构性改变。现有方法大多聚焦于局部的时序偏移，例如通过自适应归一化或在线学习应对短期波动，却忽视了更根本的挑战：一个数据集本身可能就是多个不同“体制”的复合体。正因如此，当模型面对未曾见过的体制组合时，泛化能力急剧下降。针对这一痛点，来自北航等机构的团队在最新论文中提出了 **NEST（Regime-Oriented Mixture-of-Experts）** 框架。其核心思想是：**先识别出数据中的不同“体制”，再让专门的专家模块学习每个体制的独特动态，最后通过路由机制将专家输出重组为全局预测。** ### 两阶段 MoE 架构：先分后合 NEST 采用了一种**两阶段密集混合专家（dense MoE）** 架构。第一阶段是**结构专业化**：通过无监督聚类，在精心设计的**矩-熵空间**（moment-entropy space）中将数据集划分为若干不同的运行体制。这个空间能够捕捉时间序列的高阶统计特征与信息复杂度，比直接在原始时序上聚类更具区分力。第二阶段是**专家路由与调制**。NEST 引入了一个**体制导向路由器**：它首先根据输入序列的时序内容生成初始专家权重，再通过**几何调制**（geometric modulation）将这些权重向体制质心（regime centroids）靠拢。这样一来，路由器不仅能感知当前输入属于哪个体制，还能利用体制质心作为先验知识，增强路由的鲁棒性。值得注意的是，NEST 中的每个专家并非一个黑盒预测器，而是充当**专用核函数**：它们通过演化出独特的变量注意力模式（variate-attention patterns），来捕捉对应体制下的变量间依赖关系。例如，在网络流量中，一个专家可能专门学习“突发流量”下的端口关联，而另一个专家则学习“平稳期”的周期性模式。 ### 实验表现与行业意义论文在异构网络流量、物理现象等多个基准上进行了评估，结果显示 NEST 持续取得**最先进（SOTA）** 的性能。特别是在长期预测任务中，其对体制切换的显式建模带来了显著的提升。这项工作的意义不仅在于一个更优的预测模型，更在于它为处理“数据集级分布漂移”提供了一种全新的视角。在 AI 落地过程中，真实世界的数据往往由多个隐含状态混合而成——比如自动驾驶中的不同路况、工业传感器中的不同工况。NEST 的“先识别体制、再分而治之”的思路，有望成为这类问题的一个通用范式。目前，NEST 的代码和数据集已开源，感兴趣的读者可以前往 arXiv 获取更多细节。

HuggingFace8天前原文

582

D2PO：用动态偏好优化扩散采样器，让低步数生成也能保留高清细节

新上线

扩散模型在图像生成领域已大放异彩，但一个长期存在的痛点始终困扰着研究者与实践者：**如何在减少采样步数（low-NFE）的同时，保留高频纹理细节？** 传统的“学生-教师”回归框架试图让低步数学生采样器模仿高步数教师，结果往往是保留了全局结构，却丢失了细腻纹理，生成结果“看起来像，但经不起细看”。来自韩国首尔大学的研究团队在 ECCV 2026 论文中提出了 **D2PO（Dynamic Direct Preference Optimization）**，将采样器优化问题重新定义为偏好对齐问题，而非简单的模仿学习。核心思路是：**与其让学生“复制”教师，不如让学生学会判断“哪种采样结果更好”。** ### 从模仿到偏好：D2PO 的三大创新 1. **能量基模型（EBM）视角**：D2PO 将扩散采样策略建模为一种能量基模型，使得偏好比较可以转化为可计算的能量差异。这意味着模型不再需要显式的“正确答案”，而是通过对比不同采样结果的能量高低来学习。 2. **源自预训练分数网络的能量函数**：研究团队从预训练扩散模型的分数网络中直接推导出新的能量公式，从而在扰动空间中同时评估结构一致性与细粒度细节。这使得偏好评估更贴近人类感知。 3. **动态偏好机制**：这是 D2PO 的精髓所在。传统方法依赖固定的教师模型，而 D2PO 中的“偏好样本”会随着采样策略的改进而动态更新。这种自我改进机制让模型在迭代中不断获得更强的对齐信号，而非被静态教师限制上限。 ### 实验验证：低步数下全面超越论文在多个数据集和采样器配置下进行了实验，结果显示： - 在 **NFE=4** 等极低步数设定下，D2PO 生成的图像在感知质量指标（如 FID、CLIP score）上显著优于传统回归方法。 - 尤其在高频纹理保留方面，D2PO 能够恢复出更锐利的边缘和更自然的细节，而传统方法则容易产生模糊或伪影。 - 动态偏好机制带来的增益是持续的——随着训练进行，偏好样本质量提升，模型性能也同步增长，没有出现饱和或退化。 ### 行业意义：让扩散模型更“实用” 对于 AI 生成内容（AIGC）的落地应用而言，低步数采样意味着更快的推理速度和更低的计算成本。D2PO 提出的偏好对齐思路，打破了“低步数 = 低质量”的固有印象。未来，动态偏好机制或许还能推广到其他生成模型的蒸馏与优化中，成为提升效率与质量平衡的通用范式。当然，D2PO 目前仍依赖于预训练分数网络，且动态偏好的稳定性需要更多理论分析。但无论如何，这项研究为扩散模型采样器的优化开辟了一条新路：**与其模仿，不如学会偏好。**

HuggingFace8天前原文

583

深度强化学习破解投资组合优化难题：多目标可靠性框架MORP-DRL

新上线

金融投资组合优化本质上是一个多目标决策问题，需要在收益、风险、市场动态和实际约束之间寻求平衡。传统基于可靠性的方法多依赖静态优化框架，难以捕捉序列决策、尾部风险以及交易成本等市场摩擦。针对这一局限，一篇发表于arXiv的最新论文提出了**MORP-DRL**——一种基于深度强化学习的多目标可靠性投资组合优化框架。 ## 核心创新：三管齐下的风险度量 MORP-DRL同时优化期望收益和下行风险，并引入三种互补的风险指标： - **方差**：度量整体波动性 - **条件风险价值（CVaR）**：关注极端损失的平均水平 - **熵风险价值（EVaR）**：基于尾部概率的熵度量，对厚尾分布更敏感这种设计使模型能够更全面地评估风险，尤其是在市场剧烈波动时。 ## 建模与算法：应对市场复杂性为了刻画市场的不确定性和厚尾行为，资产收益采用**GARCH(1,1)**、**极值理论**以及**t-copula**依赖结构进行建模，并通过拟蒙特卡洛模拟生成逼真的市场情景。算法层面，研究团队选用**近端策略优化（PPO）**作为强化学习基础，同时纳入了交易成本和投资组合权重上下限等实际约束，并与经典多目标进化算法**NSGA-II**进行对比。 ## 实验验证：穿越市场周期实验覆盖了全球十个股票指数，时间跨度包含**疫情前、疫情期间和疫情后**三种市场状态。结果显示，MORP-DRL在风险-收益表现上具有竞争力，在市场压力时期能有效降低下行风险，并且具备扩展到高维投资组合的能力。 ## 行业视角：强化学习赋能量化投资这项研究代表了AI在金融领域的一个前沿方向。相比传统静态优化，深度强化学习天然适合处理序列决策问题——投资组合再平衡本质上就是一个持续决策过程。结合可靠性理论（如CVaR和EVaR），模型能够更稳健地应对极端事件。尽管目前仍处于学术探索阶段，但MORP-DRL为量化投资提供了一条兼顾收益、风险与交易成本的新路径。未来，随着计算效率提升和更丰富的市场数据接入，此类方法有望在实盘交易中发挥更大价值。

HuggingFace8天前原文

584

Inertia-1：可穿戴运动基础模型的开源探索

新上线

## 当运动数据遇上大模型：Inertia-1 开启可穿戴AI新篇章可穿戴设备（如智能手表、健身手环）每天都在产生海量的运动数据，这些数据能否像文本、图像一样，训练出通用的“基础模型”？来自加州大学洛杉矶分校等机构的研究团队近期发布了 **Inertia-1**，一项针对可穿戴运动传感数据基础模型的系统性开源探索。 ### 数据规模：1800万小时的加速度计数据研究团队构建了包含 **超过1820万小时** 的全球来源加速度计数据语料库。这相当于一个人连续佩戴设备超过2000年才能产生的数据量。如此庞大的规模，为研究预训练和缩放规律提供了坚实基础。 ### 系统化研究框架不同于以往仅聚焦单一设计选择（如传感器位置或采样频率）的工作，Inertia-1 构建了一个 **全生命周期控制框架**，涵盖三大维度： - **数据选择**：传感器模态、设备佩戴位置、采样率、窗口长度等。 - **模型选择**：不同架构（如Transformer、CNN）和模型尺寸。 - **训练选择**：预训练目标、数据规模等。 ### 跨任务评估：从活动识别到疾病预测研究在 **15个数据集** 上进行了广泛评估，覆盖三类典型下游任务： - **人体活动识别**：如走路、跑步、上下楼等。 - **步态冻结检测**：用于帕金森病患者的运动障碍监测。 - **疾病预测**：通过运动模式推断健康状况。结果揭示了构建泛化性运动基础模型的关键因素，例如： > 使用多位置数据预训练能显著提升模型在不同佩戴场景下的表现； > 更大模型尺寸在足够数据支持下持续带来收益，但存在边际递减。 ### 开源“菜谱”：加速可穿戴AI落地 Inertia-1 不仅提供了 **当前最优的配方**（state-of-the-art recipes），更被设计为一本 **实用、开放的可穿戴运动表征学习指南**（cookbook）。所有代码、模型和实验配置均开源，旨在降低该领域的研究门槛。 ### 意义与展望可穿戴运动传感数据具有连续、低成本、高生态效度等优势，非常适合作为基础模型的训练原料。Inertia-1 的工作填补了该领域系统性研究的空白，为后续研究提供了： - 可复现的基线 - 数据与模型缩放的经验规律 - 跨任务迁移的可行路径未来，随着更多传感器（如心率、皮肤电活动）的融合，可穿戴基础模型有望在 **个性化健康管理、老年照护、运动科学** 等领域发挥更大作用。 --- > 论文链接：arXiv:2607.06617

HuggingFace8天前原文

585

STAGformer：面向微出行需求预测的时空智能体图Transformer

新上线

## 高效建模新突破：STAGformer 如何用线性复杂度解决共享单车需求预测难题？共享单车系统的运营效率高度依赖于精准的站点级需求预测。然而，城市网络规模庞大，时空依赖关系复杂，传统模型往往难以兼顾精度与计算效率。近日，一篇发表于 arXiv 的论文提出了 **STAGformer（Spatio-Temporal Agent Graph Transformer）**，通过创新的**智能体注意力机制**，将标准自注意力的二次复杂度降至 **O(NT)** 线性级别，为大规模时空预测开辟了新路径。 ### 核心创新：两步式智能体注意力 STAGformer 的核心在于其**两步式智能体注意力机制**。模型引入少量可学习的**空间智能体令牌**和**时间智能体令牌**，首先由这些智能体从所有站点和时间步中聚合全局信息，再将其广播回各个站点和时间步。这一设计有效捕捉了长距离交互，同时避免了标准 Transformer 中随节点数平方增长的计算开销。 ### 四大模块协同工作 STAGformer 由四个核心模块构成： - **时空编码器**：融合动态节点特征与外部上下文因素（如天气、时间、兴趣点）； - **图传播模块**：用于空间邻居聚合，捕捉局部空间相关性； - **时间卷积模块**：提取局部时间模式； - **智能体注意力模块**：负责全局依赖建模，是模型性能的关键。 ### 实验表现：全面超越基线研究团队在 **纽约 Citi-Bike** 和 **芝加哥 Divvy-Bike** 两个真实数据集上进行了广泛实验。结果显示，STAGformer 在多个预测时长（如 15 分钟、30 分钟、1 小时等）上，均以显著优势超越了当前最先进的基线模型，在 **RMSE** 和 **MAE** 两项指标上均取得最优。消融研究进一步验证了每个组件的贡献，其中智能体注意力机制被证实是捕捉全局时空依赖的关键。 ### 行业意义与展望随着城市微出行（如共享单车、电动滑板车）的普及，精准的需求预测对车辆调度、站点管理及用户体验优化至关重要。STAGformer 提供了一种**兼顾效率与精度**的解决方案，其线性复杂度使其具备部署于大规模城市网络的潜力。未来，该框架有望推广至其他时空预测任务，如交通流量预测、人群密度估计等，推动智能交通系统向更高效、更智能的方向发展。

HuggingFace8天前原文

586

AgentLens: Production-Assessed Trajectory Reviews for Coding Agent Evaluation

精选

arXiv:2607.06624v1 Announce Type: new Abstract: We present AgentLens, a production-assessed benchmark for interactive code agents. Most code-agent benchmarks reduce a run to a single bit -- did the task pass? -- but the people who actually use these agents experience the entire trajectory: how the agent follows instructions, uses its tools, verifies its own work, recovers from mistakes, and talks to them along the way. AgentLens evaluates that whole trajectory. It pairs formal verification, wher

Anthropic8天前原文

587

上下文搜索何时奏效？反思驱动推理的采样复杂度理论

精选

一篇来自希伯来大学研究团队的最新论文，为当前大语言模型（LLM）中流行的“反思驱动推理”提供了严格的理论基础。该研究将模型在推理过程中的迭代搜索、自我批评与修正行为，建模为对推理轨迹的近似后验推断，并首次系统分析了这种做法的采样复杂度——即需要多少次顺序尝试才能达到高成功率。 ## 核心发现：指数级加速的条件论文的核心结论是：**当模型的自我反思能够可靠地定位早期错误时，上下文搜索可以带来指数级的性能提升**。具体而言，如果基础模型对某个问题的零样本通过率极低（指数级小），通过反思机制进行顺序搜索，只需多项式次数的尝试就能显著提高成功率。相反，如果反思不能有效定位错误，那么条件化于过去的尝试将不会带来任何渐进收益，其效果与简单的并行采样无异。这一发现直接回应了业界对“思维链”和“自我纠错”有效性的争议：**并非所有反思都有用，关键在于反思的质量**——能否精准识别推理链中的早期错误节点。 ## 理论框架：从先验到后验的近似推断研究团队将推理过程形式化为一个概率模型：基础模型提供推理轨迹的先验分布，而自我反思则提供反馈信号，用于更新后验分布。模型在推理时进行采样，每次尝试都基于之前的反馈调整策略。这一框架与贝叶斯推断高度相似，使得作者能够借用信息论和统计学习理论中的工具来刻画采样复杂度。论文进一步证明，即使反思信号只是近似正确的后验更新，也能获得鲁棒的收益。更关键的是，这种能力是可学习的：**通过交叉熵损失训练模型在搜索轨迹上进行学习，只需多项式样本就能让模型学会有效的反思行为**。这为当前流行的“过程奖励模型”和“搜索微调”提供了理论支撑。 ## 与强化学习的联系研究还将这一框架与基于可验证奖励的强化学习联系起来，证明最优策略扩展实际上实现了相同的后验重加权规则。这意味着，当前许多通过RL训练推理模型的方法，其成功背后可能正是隐式地学习了这种后验推断机制。 ## 实验验证与行业意义研究者在真实的大型推理模型上验证了关键定性预测，例如：当问题需要多步推理且早期步骤容易出错时，具备高质量反思的模型性能显著优于无反思的并行采样。这项工作的价值在于：它为“推理时计算”提供了理论边界，帮助开发者理解何时值得投入计算资源进行顺序搜索，以及如何设计更有效的反思机制。对于正在构建长链推理系统的团队而言，论文的结论意味着：**与其盲目增加搜索步数，不如优先提升模型定位早期错误的能力**。

Anthropic8天前原文

588

空间关系在紧凑世界模型中的具身化：指令泄露与无目标动力学修复

精选

## 背景：语言目标与空间关系的“假性接地” 在具身AI领域，紧凑世界模型通过语言目标（如“将红色方块放在蓝色方块左边”）来指导机器人理解空间关系，并利用**参考锚点**（reference anchors）实现关系接地。然而，最新研究揭示了一个严重陷阱：模型可能并非真正感知空间关系，而是**转录指令中的答案**，即“指令泄露”现象。 ## 核心发现：0.90 准确率背后的幻觉论文《Grounding Spatial Relations in a Compact World Model: Instruction Leakage and a Goal-Free Dynamics Fix》通过实验发现，一个目标条件预测器在关系读出任务上达到了惊人的 **0.90 准确率**，但这本质上是**指令转录**而非感知。当移除目标指令时，准确率骤降至 **0.27**（三组实验种子平均）；而输入反事实指令时，预测的锚点 **94.5%** 遵循虚假指令，仅 **2.3%** 符合真实场景（N=256）。 ## 泄露机制：当指令直接命名答案研究团队在桌面环境和BabyAI基准测试中均观察到泄露现象。其核心机制是：**当指令直接命名了待评估的答案时（例如“左”或“右”），模型倾向于直接从指令中提取答案，而非依赖感知输入**。而在Language-Table前向动力学世界模型中，由于指令仅命名参考对象（referents）而非方向，泄露未发生——直到指令被增强为包含方向信息。此外，降低动作预测质量并未增加泄露，这与“预测器竞争”假说相反。 ## 解决方案：将目标从动力学中剥离论文提出的修复方案简洁而有效： - **将目标排除在动力学模型之外**：目标仅用于规划器的代价函数，不参与状态预测； - **监督读取路径**：确保关系读出路径独立于目标指令。采用该方法后，模型在有无目标指令的条件下均达到了 **0.88** 的准确率，实现了真正的、指令无关的空间关系接地。 ## 行业启示该研究对具身AI领域具有重要警示意义： - **评估指标需警惕“假性成功”**：高准确率可能掩盖模型对指令的过度依赖； - **检测协议可推广**：通过移除或篡改指令来验证模型是否真正理解任务； - **架构设计原则**：语言目标应仅用于规划，而非参与感知过程。这一发现不仅适用于空间关系，也适用于任何目标条件世界模型中指令直接命名评估量的场景，为构建更鲁棒的具身智能系统提供了关键指导。

Anthropic8天前原文

589

生成位置决定成败：FedEAS 提出预算感知合成增强，高效解决联邦学习标签倾斜

新上线

联邦学习（FL）中，标签分布倾斜（label skew）是导致客户端漂移（client drift）和全局模型准确率下降的顽疾。合成数据增强是一种有效的缓解手段，但若追求完全的类平衡，其计算成本往往高得难以承受。来自韩国研究团队的最新论文提出 **FedEAS**（Federated Entropy-Adaptive Synthesis），巧用“预算”思维，在近乎不增加额外开销的前提下，显著提升了模型性能。 ## 核心问题：合成数据该“给谁用”和“用多少”？传统方法要么对所有客户端一视同仁地分配生成预算（Uniform allocation），要么不顾成本地追求全局类平衡。前者无视了不同客户端本地分布差异，后者则因高昂的计算代价而不具备实际部署可行性。FedEAS 的切入点非常直接：**预算必须根据每个客户端的本地标签分布动态调整**，并且要同时回答两个问题——生成多少（how much）以及生成的样本送往哪里（where）。 ## FedEAS 机制：熵自适应预算与生成位置决策 FedEAS 的核心是一个 **熵自适应（entropy-adaptive）的每类生成预算** 计算策略。具体来说，系统根据每个客户端本地标签分布的熵值，为每个类别分配一个生成预算。分布越不平衡（熵越低），该客户端获得的生成预算就越高，从而有针对性地补足稀缺类别。同时，生成的合成样本并非“自产自销”，而是根据全局需求被分配到最需要它们的客户端（或保留在本地）。这种“生成+分发”的双重决策机制，使得总生成预算不再是一个预先设定的固定值，而是由所有客户端的预算之和自然确定。 ## 实验结果：94.1% 的预算削减与 18.82% 的性能提升在 CIFAR-10 和 CIFAR-100 数据集上的实验表明，FedEAS 能够恢复完全类平衡带来的绝大部分准确率增益，同时将生成预算削减了 **94.1%**。换言之，它用不到 6% 的计算成本，就实现了接近最优的效果。与统一预算分配相比，在相同总预算下，FedEAS 的性能提升最高达 **18.82%**。这一结果充分说明了“把钱花在刀刃上”的重要性——不是生成更多的数据，而是生成对的地方、对的数量。 ## 行业启示：效率优先的联邦增强新范式 FedEAS 的提出，为联邦学习中数据增强的实用化提供了新思路。在现实场景中，客户端（如手机、医院）的计算和存储资源往往有限，不可能承担大规模合成数据生成。FedEAS 的预算感知机制，使得资源可以精准投放到最需要的数据类别上，尤其适用于医疗影像、金融风控等标签分布天然倾斜的领域。未来，结合更先进的生成模型（如扩散模型），这一框架有望进一步降低合成成本，推动联邦学习走向更广泛的落地应用。

HuggingFace8天前原文

590

Lovable 估值或翻倍至 132 亿美元，新一轮 3 亿美元融资传闻引发关注

新上线

瑞典“氛围编码”初创公司 **Lovable** 正进行新一轮融资谈判，计划以 **132 亿美元** 估值筹集 **3 亿美元**，较去年 12 月的 **66 亿美元** 估值翻倍。据 Sifted 报道，本轮融资预计由 **Menlo Ventures** 领投，该公司上月刚宣布完成 **30 亿美元** 新基金。成立于不到三年的 Lovable 在 **6 月** 已达到 **5 亿美元** 年化经常性收入（ARR）。其用户群体涵盖创始人、独立设计师和销售人员，用于构建网站和电商店铺。同时，Lovable 也向大型企业销售其“氛围编码”工具，客户包括 **Workday、Asana 和 Nvidia**。 “氛围编码”允许用户通过自然语言描述来构建软件，已成为 AI 领域最流行且最赚钱的应用场景之一。其他知名“氛围编码”初创公司包括：3 月估值 **90 亿美元** 的 **Replit**；4 月以 **15 亿美元** 估值融资 **1.5 亿美元** 的 **Factory**（帮助企业开发 AI 代理）；以及上月被 SpaceX 以 **600 亿美元** 收购的 **Cursor**（面向开发者的“氛围编码”工具）。 Lovable 的估值飙升反映了投资者对“氛围编码”赛道的狂热。该赛道通过降低软件开发门槛，正在重塑应用构建方式。然而，高估值也带来风险：市场竞争加剧，且企业客户对安全性和可控性的要求可能限制增长。Lovable 能否持续兑现高增长预期，仍有待观察。

TechCrunch9天前原文

591

常春藤教授怀疑学生用AI作弊，改线下期末考，成绩暴跌50%

新上线

一位常春藤盟校教授因怀疑学生在线上考试中借助AI作弊，决定将期末考改为线下闭卷形式。结果令人震惊：**全班平均成绩暴跌50%**。教授直言，AI作弊正在导致“一个失败的社会”。 ### 发生了什么？这名教授在学期初采用线上开卷考试，但发现学生提交的答案异常工整、逻辑严谨，远超正常水平。他怀疑学生使用了ChatGPT等AI工具直接生成答案。为验证这一猜测，他在期末时突然宣布改为**线下监考、闭卷考试**。成绩公布后，全班平均分相较前几次线上考试**下降了约一半**。部分学生甚至无法完成基本题目，暴露出对AI的严重依赖。 ### 教授的观点教授在事后接受采访时表示，AI作弊不仅是学术不端，更会侵蚀学生的独立思考能力。“如果我们培养出的学生只会用AI回答问题，而不会自己思考，那我们将拥有一个失败的社会。” 他强调，AI本身不是问题，**滥用AI替代学习过程**才是核心隐患。教育者需要重新设计评估方式，比如增加口试、项目制考核等难以被AI直接利用的环节。 ### 行业背景这一事件并非孤例。自ChatGPT爆火以来，全球高校都在应对AI带来的学术诚信挑战。部分学校已明确禁止在考试中使用AI，或引入AI检测工具。但道高一尺魔高一丈，AI生成文本的检测准确率并不稳定，学生也发展出“改写”策略来规避检测。更深远的问题是：**当AI能完成大部分知识性工作时，教育的目标应该是什么？** 是继续考核知识记忆，还是转向批判性思维、创造力等人类独特能力？ ### 小结这次“成绩腰斩”事件，直观揭示了AI作弊对学习效果的破坏力。它给教育界敲响警钟：**技术工具需要配套的教育改革**，否则学生可能在“高分”幻觉中失去真正的能力。而对于AI行业来说，这也提醒开发者，在追求模型能力的同时，需考虑其社会影响，比如开发更负责任的使用场景和防滥用机制。

Ars Technica9天前原文

592

“我不再是程序员了”：Linus Torvalds 谈他现在只使用的两种工具

新上线

在印度孟买举行的 **2026 年开源峰会** 上，Linux 创始人 **Linus Torvalds** 与好友 Dirk Hohndel 展开对话，分享了他对 Linux 开发现状、AI 影响以及个人角色转变的见解。Torvalds 坦言：“我不再是程序员了。”如今他仅依赖两种核心工具——**电子邮件** 和 **Git** 来管理内核开发。 ## 从程序员到维护者 Torvalds 解释称，他早已停止编写代码，转而专注于审核补丁、处理合并请求以及协调社区工作。他的日常工作围绕 **2000 多封邮件** 和每九到十周一次的发布周期展开。他认为这种转变是自然演进的结果：“我的工作是确保别人写的好代码能进入内核，而不是自己写代码。” ## AI 带来的“痛苦”与力量当话题转向 AI 时，Torvalds 承认 AI 正在给内核开发带来压力。AI 工具发现了许多此前未被注意的 bug，导致社区维护者工作量激增。但他也肯定 AI 的潜力：“AI 在代码审查和错误检测方面很有用，但它无法替代人类的判断。”他特别提到，AI 生成的补丁有时逻辑混乱，需要大量人工修正。 ## Rust 语言：有用但非万能 Torvalds 重申了对 Rust 语言的支持，Linux 内核已逐步引入 Rust 代码以提升内存安全性。但他强调，Rust 并非解决所有问题的银弹：“好的编程逻辑比语言本身更重要。”他批评那些认为换用 Rust 就能自动消除 bug 的观点，并指出内核中 C 代码的成熟度短期内难以被取代。 ## 告别“博物馆技术” Torvalds 明确表示，Linux 不再支持过时的硬件或软件，例如 **Intel 486 处理器** 已在最新的 Linux 7.1 中被移除。他将这些称为“博物馆技术”，认为保留它们只会增加维护负担，阻碍创新。这一决定反映了内核团队对精简和现代化的持续追求。 ## 结语 Torvalds 的演讲揭示了开源项目领导者的真实工作状态：从代码编写者转变为社区协调者，在拥抱 AI 等新技术的同时，坚守稳定性与渐进改进的原则。他的经验表明，即使是最成功的项目，也需要不断适应工具和生态的变化，同时保持对核心价值的专注。

ZDNet AI9天前原文

593

梅西与C罗大举投资AI和科技初创，萨拉赫却走了一条更传统的路

新上线

足球巨星梅西与C罗近年来积极布局AI、健康科技等领域的股权投资，而萨拉赫则坚守商业代言、房地产和慈善等传统路径。这种差异折射出顶级运动员财富管理策略的分化——前者希望通过股权增值实现长期财富自由，后者则更看重稳定现金流与社会影响力。 ## 从代言人到投资人：明星身份的转变过去十年，越来越多的顶尖运动员不再满足于一次性代言费，而是选择以股权换取品牌深度绑定。梅西在2022年10月与视频平台Viki创始人Razmig Hovaghimian共同成立**Play Time HoldCo**，这家总部位于旧金山的投资公司专注于**体育、媒体和科技**领域的早期投资。C罗则通过个人品牌CR7涉足健康科技、区块链和AI初创公司，例如他投资的健康监测平台**WHOOP**，以及与加密货币交易所**Binance**的NFT合作。这种转变背后是商业逻辑的升级：运动员的社交媒体影响力（梅西Instagram粉丝超5亿，C罗超6亿）可以为初创企业提供难以量化的曝光和信任背书。迪拜估值咨询公司Archers Valuation and Advisory合伙人Kamraan Khan指出：“从传统赞助到股权投资的转变，反映了运动员对长期财富创造和退役后财务安全的更深层考量。” ## 萨拉赫的“经典路线”：商业合作与社区投资与梅西和C罗形成对比的是，利物浦球星**穆罕默德·萨拉赫**仍然坚持更传统的财富积累方式。他的投资组合主要包括与**阿迪达斯、沃达丰**等品牌的长期代言合同，以及在埃及和英国的房地产投资。此外，萨拉赫在家乡纳格里格投入大量资金建设学校、医疗设施和污水处理系统，这种**慈善与社区建设**并重的模式为他赢得了超越足球场的社会声望。萨拉赫并非完全排斥科技投资——他持有埃及支付公司**PaySky**的少数股份，但整体策略更偏向低风险、高稳定性的资产配置。这种保守姿态或许源于他相对更晚的职业生涯爆发期（2017年加盟利物浦后才成为全球巨星），以及他对社会责任的强烈使命感。 ## 两种路径背后的行业逻辑运动员投资策略的分化并非偶然。梅西和C罗职业生涯更长、商业帝国更成熟，他们有能力承担高风险高回报的科技投资；而萨拉赫仍处于巅峰期，更倾向于通过稳定的现金流保障未来。然而，随着2026年世界杯临近——C罗已确认这将是他最后一届世界杯——足球巨星们的“后球场时代”规划也进入加速期。对于初创公司而言，签约一位顶级运动员作为投资者，相当于获得一个覆盖数亿用户的超级流量入口。这种“影响力资本”正在重塑体育与科技产业的合作关系。可以预见，未来将有更多运动员效仿梅西和C罗，将自身品牌转化为投资筹码。 ## 小结从代言到股权，从球场到董事会，顶级足球运动员的财富叙事正在发生根本性变化。梅西和C罗选择拥抱高风险高回报的科技赛道，萨拉赫则用传统方式巩固商业与社会根基。两种模式并无优劣之分，但它们的并存恰恰说明了运动员商业价值开发的多元可能性。对于AI和科技行业来说，这些超级IP的入场不仅带来了资金，更意味着全球最广泛的用户注意力正在与前沿技术深度绑定。

WIRED AI9天前原文

594

谷歌深伪检测系统立功，麦康奈尔住院假照片被揭穿

新上线

本周早些时候，一张显示肯塔基州参议员米奇·麦康奈尔（Mitch McConnell）全身插满管子、表情极度痛苦地躺在病床上的图片在网络上疯传。经核查，这张图片实为AI生成的虚假内容，而揭穿它的关键线索来自谷歌的深伪检测系统**SynthID**。 ## 事件回顾图片在Reddit和X（原Twitter）上被广泛传播，引发公众对麦康奈尔健康状况的猜测。自6月14日因紧急呼叫住院后，麦康奈尔一直鲜少公开露面，外界对其健康担忧不断。然而，事实核查网站**Snopes**在周三发布报告称，该图片经检测含有谷歌SynthID系统嵌入的隐形水印，确认为AI生成。 ## SynthID如何工作？ SynthID于2025年在谷歌I/O开发者大会上推出，其原理是在AI生成图片中嵌入人眼不可见、但算法可识别的数字水印。这种水印具有**鲁棒性**，即使图片被跨平台截图（如本例中的传播方式），水印依然可被检测。目前，**Gemini模型**自2025年发布起即内置该水印，**OpenAI**于2026年5月加入支持，而**Anthropic**尚未参与。 ## 意义与局限此次事件是SynthID系统的一次**罕见但重要的胜利**，展示了水印技术在应对恶意生成内容方面的潜力。用户可通过询问Gemini模型或上传至OpenAI的公开验证工具来检查图片是否含有SynthID水印。然而，该系统的主要限制在于它仅能在图像生成工具积极参与时生效——即生成方必须主动嵌入水印。这意味着，对于未参与计划的模型或经过后期处理的图片，SynthID可能无法提供保护。 ## 行业背景深伪技术（deepfake）的滥用已成为AI安全的重要议题。从虚假名人言论到政治谣言，AI生成内容正在冲击信息真实性。此次麦康奈尔假照片事件凸显了**技术溯源**的必要性。尽管水印并非万能，但它为平台和用户提供了一道可验证的防线。未来，随着更多模型加入SynthID计划，以及检测技术的不断完善，AI生成内容的标识与追踪有望成为行业标准。

TechCrunch9天前原文

595

我打造了一个自我进化AI，你也可以做到

新上线

前沿AI实验室正在竞相开发自我进化的模型，这被认为是通往超级智能的捷径。但自我进化AI并非巨头专属——通过简单的实验，我验证了个人开发者也能利用现有工具构建并持续改进小型模型。 ## 实验：从零开始训练小模型我使用**AutoResearch**（由AI巨星Andrej Karpathy开发）和Claude，在Nvidia DGX桌面超级计算机上训练了一个小型语言模型。Claude负责调整参数、训练策略，并基于模型输出不断优化。早期版本在补全“In the beginning…”时输出混乱的重复文本，但经过几轮自主改进，模型逐渐变得连贯。 ## 意义：去中心化的AI未来这一实验表明，自我改进并非前沿实验室的专利。小型模型可以针对特定任务（如自动化新闻简报的重复工作）持续优化，且不依赖少数巨头控制的基础模型。Karpathy的AutoResearch等工具降低了门槛，让个人或小团队也能参与AI的自我进化循环。 ## 挑战与展望当前小型模型能力有限，但通过递归自我改进，其性能可以逐步提升。这为**垂直领域自动化**和**个性化AI助手**开辟了新路径。未来，自我改进AI可能不再局限于少数公司，而是成为一种广泛可用的技术范式。 > 关键启示：自我改进AI的未来并非只有超级智能一条路，它同样可以服务于日常效率提升，且人人可尝试。

WIRED AI9天前原文

596

诉讼揭露：Grok 用户生成7000张儿童性虐待图像，xAI 仅报告一起轮奸提示

新上线

一起新的诉讼指控 xAI 和 X（原 Twitter）在内容审核上严重失职，未能防止其 AI 聊天机器人 Grok 被用于生成儿童性虐待材料（CSAM）。根据诉讼文件，一名 Grok 用户生成了 **超过 7000 张** 儿童性虐待图像，而 xAI 仅在收到一个涉及轮奸的极端提示后才向当局报告。原告方——多名年轻女孩及其家庭——声称 X 平台不仅未能阻止此类内容生成，反而通过其 AI 工具“庇护儿童性侵犯者”。诉讼指出，Grok 缺乏有效的安全防护措施，允许用户通过简单提示生成逼真的 CSAM 图像。尽管 xAI 声称已实施内容过滤，但实际执行中漏洞百出。更令人担忧的是，X 平台在收到大量用户举报后，并未及时删除相关内容或封禁涉事账号，导致受害者的图像在网络上持续传播。这起案件引发了关于 AI 平台法律责任的广泛讨论。目前，美国法律对社交媒体平台提供“避风港”保护，但原告律师主张，xAI 主动生成非法内容的行为应使其承担直接责任。类似争议此前曾出现在其他 AI 图像生成工具（如 Stable Diffusion）的诉讼中，但 Grok 案的特殊之处在于其与 X 平台的深度整合，使得内容传播更加迅速和难以追踪。行业观察人士指出，此案可能推动监管机构加快制定 AI 内容安全标准。目前，欧盟《人工智能法案》已要求高风险 AI 系统实施严格的内容审核，而美国尚未出台类似联邦法律。xAI 和 X 尚未对诉讼发表正式评论，但案件进展或将影响未来 AI 平台的合规策略。

Ars Technica9天前原文

597

我用索尼系统替换了 Sonos 家庭影院——创新才是王道

新上线

家庭影院的形态正在被重新定义。索尼最新推出的 **Bravia Theater Trio** 以独特的模块化设计，打破了传统家庭影院系统的束缚。作为一名长期使用 Sonos 的用户，我决定将整套设备替换为这套索尼系统，而体验远超预期。 ## 设计：低调而灵活 Bravia Theater Trio 最吸引人的地方在于它的 **不显眼设计**。与传统 Soundbar 或独立扬声器不同，Trio 由三个独立模块组成，可以灵活放置在电视周围，甚至挂在墙上。这种设计不仅节省空间，还能更好地融入家居环境。索尼显然没有遵循传统家庭影院的设计规则，而是选择了更具创新性的路径。 ## 音质：出乎意料的强大尽管外形小巧，Trio 的音质却令人印象深刻。它支持 **杜比全景声** 和 **DTS:X**，能够营造出沉浸式的三维声场。中高频清晰细腻，低频虽然不如独立低音炮那么震撼，但对于日常观影和音乐欣赏来说已经足够。索尼的 **垂直环绕引擎** 技术让声音仿佛从天花板传来，增强了临场感。 ## 软件生态：索尼的差异化优势 Trio 的软件功能是其另一大亮点。它支持 **索尼 Bravia 电视的声场优化**，可以根据房间布局自动调整声音输出。此外，它还兼容 **Google Cast**、**AirPlay 2** 和 **Spotify Connect**，方便用户通过手机直接播放音乐。索尼还提供了专属的 **Home Entertainment Connect** 应用，用于控制多房间音频。 ## 与 Sonos 的对比：创新 vs 成熟 Sonos 在家庭音频领域拥有成熟的产品线，但其系统相对封闭，且更新迭代较慢。索尼的 Trio 则展现了更强的 **创新意愿**：模块化设计、灵活的摆放方式以及对最新音频格式的支持。当然，Trio 也有不足——价格较高（约 **1598 美元**），且接口有限，可能不适合需要连接多种设备的用户。 ## 小结：创新值得买单如果你追求极致的家庭影院体验，并且愿意为创新设计付费，那么索尼 Bravia Theater Trio 是一个值得考虑的选择。它不仅提供了出色的音质，更通过独特的形态展示了家庭影院的未来可能性。

ZDNet AI9天前原文

598

AWS 上推出 Claude 应用网关：为企业统一管理 Claude Code 和 Claude Desktop 的访问、成本与策略

新上线

随着企业将 Claude Code 和 Claude Desktop 部署到开发团队中，集中控制访问、成本和策略的需求日益迫切。每个开发者需要单独的凭证，设置必须手动分发，支出难以追踪或限制。没有集中的控制点，治理只能依赖各团队自行实施的工具。今天，我们宣布推出 **Claude 应用网关 for AWS**，这是一个自托管控平面，为组织提供对 Claude Code 和 Claude Desktop 的访问、成本和策略的单一控制点。它取代了为每个开发者配置单独云凭证、手动推送设置到每台笔记本电脑或搭建独立工具追踪支出的需求。您可以通过 Amazon Bedrock 部署，将数据保留在 AWS 安全边界内，或通过 AWS 上的 Claude Platform 部署，以获得原生 Claude 平台体验下的相同网关控制。 ### 网关工作原理该网关由 Anthropic 在 Claude Code CLI 二进制文件中提供。您可以在基础设施上运行一个无状态容器，并由 PostgreSQL 数据库支持，用于存储短期登录状态和速率限制计数器。由于网关和客户端是共同构建的，`/login` 流程能够感知网关。客户端在登录时自动应用托管设置，策略在每个请求上一致执行。 **身份管理**：网关连接到任何符合标准的 OpenID Connect (OIDC) 身份提供商。开发者通过浏览器单点登录后，网关颁发短期令牌，CLI 用于所有后续请求。 **策略执行**：您在服务器上定义托管设置。客户端在登录时接收策略，网关在每个请求上强制执行。您可以调整允许的模型、设置支出上限等。 ### 部署选项 - **通过 Amazon Bedrock**：数据保留在 AWS 安全边界内，适合对数据驻留有严格要求的组织。 - **通过 Claude Platform on AWS**：提供原生 Claude 平台体验，同时获得网关控制。 ### 核心优势 - **简化入职/离职**：通过身份提供商添加或移除开发者，会话在配置的令牌生命周期（默认一小时）内过期，开发者机器上不存储长期密钥。 - **集中策略管理**：一次性定义设置，自动应用到所有客户端。 - **成本控制**：通过支出上限和速率限制追踪和限制使用。该网关目前处于预览阶段，企业可以通过 AWS 控制台或 Anthropic 的官方渠道申请访问。

AWS ML9天前原文

599

实测三款Qi2散热无线充电器：我的购买建议彻底变了

新上线

## 无线充电的“热”问题有新解了吗？对于无线充电的老用户来说，一个挥之不去的体验就是：手机充完电总是**发热**。从早期的Palm Pre时代起，这种通过空气传输电能的方式就伴随着能量损耗和热量产生。如今，随着**Qi2标准**的普及，磁吸对准和更高功率成为常态，但发热问题并未消失，反而可能因功率提升而更突出。最近，一批**集成主动散热方案**的Qi2无线充电器进入市场，厂商宣称能有效降低充电温度，从而提升充电速度和电池寿命。那么，这些“带风扇”或“带散热片”的充电支架，真的能改变我们的使用体验吗？ ## 三款散热充电器横评：原理各异，效果有别我挑选了三款代表性产品进行实测，它们分别采用了不同的散热策略： 1. **主动风冷型**：内置小型风扇，充电时持续吹拂手机背部，带走热量。 2. **被动散热型**：依靠大面积金属散热片和导热材料，将热量快速传导扩散。 3. **混合型**：结合风扇和散热片，并可能采用半导体制冷片（TEC）。测试条件统一：同一部支持Qi2的手机，从20%电量开始无线充电至80%，记录全程温度变化和充电时间。 ### 结果令人意外 - **主动风冷型**确实在降温上表现最直接，手机背面温度比普通无线充电器降低了约**5-8°C**，但风扇噪音在安静环境下较为明显，且容易积灰。 - **被动散热型**效果中等，温度降低约3-5°C，无噪音，但需要确保散热片与手机充分接触，部分厚手机壳会影响效果。 - **混合型**理论上最强大，但实际测试中，半导体制冷片需要额外功耗，且可能导致手机背面局部过冷产生冷凝水，存在风险。整体温控反而不如纯风冷稳定。 ## 我的购买建议彻底变了过去，我推荐无线充电器时主要看功率、设计和价格。但现在，**散热能力应当成为核心考量因素**。原因有三： 1. **保护电池健康**：高温是锂电池寿命的头号杀手。持续的高温充电会加速电池老化，甚至引发安全风险。一个散热良好的充电器，长期来看能延长手机电池寿命。 2. **维持充电速度**：许多手机在检测到温度过高时会主动降功率，导致充电变慢。散热好的充电器能保持高功率充电更长时间，实际充电速度可能比普通15W充电器更快。 3. **提升使用体验**：谁都不想拿起一个烫手的手机。散热充电器让充电后手机保持凉爽，直接提升日常使用的舒适度。 ## 选购建议 - **优先选择主动风冷型**：如果对噪音不敏感，且充电环境灰尘较少，主动风冷是最成熟有效的方案。 - **被动散热型适合安静环境**：办公室、卧室等对噪音敏感的场景，选择大面积金属散热片的产品，注意搭配薄壳或裸机使用。 - **谨慎对待混合型**：尤其是带有半导体制冷片的产品，需确认是否有防冷凝水设计，否则可能损坏手机。总的来说，Qi2无线充电器已经迈入“散热军备竞赛”阶段。如果你还在用老款无线充电器，升级到带散热功能的新品，可能是今年最值得的配件投资之一。

ZDNet AI9天前原文

600

百思买LG C5 OLED电视近乎半价促销，强烈推荐入手

新上线

百思买正在对LG C5 OLED电视进行大幅促销，65英寸型号仅售1,399美元，比原价2,699美元节省1,300美元，折扣幅度接近50%。这款电视虽然属于上一代产品，但依然具备出色的OLED画质、VRR支持、内置语音控制以及杜比视界HDR和杜比全景声虚拟环绕声等特性。ZDNET编辑评价其“亮度和色彩令人惊艳”，并给出了5/5的满分评级。对于追求高性价比的家庭影院用户和游戏玩家来说，这无疑是一个绝佳的购买时机。 ## 为什么LG C5 OLED值得关注？ LG C5 OLED电视在ZDNET的评测中获得了高度认可，其核心优势在于： - **画质表现**：OLED面板带来深邃的黑色和精准的色彩还原，配合杜比视界HDR，能提供影院级的视觉体验。 - **游戏性能**：支持VRR（可变刷新率），可减少画面撕裂，适合连接PS5或Xbox Series X等游戏主机。 - **智能功能**：内置语音助手，支持免提操作，同时兼容主流智能家居平台。 - **音效系统**：杜比全景声虚拟环绕声技术，无需外接音响即可获得沉浸式音频。 ## 促销细节与购买建议此次促销由百思买提供，65英寸型号的LG C5 OLED电视售价为**1,399美元**，相比原价节省超过1,300美元。虽然该型号是上一代产品，但LG OLED电视每年的升级幅度通常较小，C5依然具备强大的性能和功能。对于预算有限但希望体验高端OLED电视的用户来说，这是一个性价比极高的选择。需要注意的是，促销活动可能有限时，建议有购买意向的消费者尽快行动。此外，ZDNET提醒，通过链接购买可能会产生联盟佣金，但这不影响产品价格和编辑评价的独立性。 ## 小结 LG C5 OLED电视在画质、游戏和智能功能方面均表现优异，此次近半价促销使其成为当前市场上最值得购买的电视之一。无论是观看电影、追剧还是玩游戏，它都能提供出色的体验。如果你正在考虑升级家庭娱乐设备，不妨抓住这个机会。

ZDNet AI9天前原文