SheepNav

AI 资讯

每日聚合最新人工智能动态

## 研究背景:神经算子的频谱偏差困境 神经算子(Neural Operator)作为科学建模中快速、数据驱动的替代模型,近年来在物理模拟、气象预测等领域展现出巨大潜力。然而,传统神经算子采用**单次前向推理**的固定流程,在处理高频细节时往往力不从心——这种被称为**频谱偏差(Spectral Bias)** 的局限性,导致模型对平滑的低频成分拟合良好,却无法准确捕捉剧烈的局部变化,例如湍流中的涡旋结构或活性物质中的非平衡态波动。 ## IRNO:将迭代精炼引入神经算子 针对这一挑战,来自多所高校的研究者在ICML 2026 Spotlight论文中提出了**迭代精炼神经算子(Iterative Refinement Neural Operator, IRNO)**。其核心思想是将预训练的基算子与一个**可学习的精炼模块**相结合,并通过**不动点迭代(Fixed-Point Iteration)** 反复应用该模块。 具体来说,IRNO首先由基算子生成一个**粗粒度初始预测**,然后精炼模块逐步添加**残差修正**,类似经典数值求解器(如牛顿法)的迭代过程。在局部平滑性假设下,研究者证明了该迭代算子的**压缩映射性质**,确保收敛到唯一不动点。 ## 渐进式频谱损失:针对性攻克高频误差 为显式抑制高频误差,IRNO引入了一种**渐进式频谱损失(Progressive Spectral Loss)**。该损失函数在训练过程中逐步增加对高频分量的惩罚权重,使得精炼模块在不同迭代步数中优先修正不同频率成分的误差。这种设计避免了传统损失函数对所有频率一视同仁的缺陷,让模型能够**自适应地聚焦高频细节**。 ## 实验结果:湍流误差降低56%,高频误差降至2% 在多个物理系统上的验证表明,IRNO显著提升了预测精度: - **湍流模拟**:相比基线算子,IRNO将误差降低了**56.05%**,尤其在高频涡旋区域改善明显。 - **活性物质系统**:频谱分析显示,经过迭代精炼后,归一化误差比在低频段降至**27.72%-36.10%**,中频段降至**5.07%-6.68%**,而高频段更是低至**1.48%-2.04%**。更重要的是,即使**超出训练设定的迭代次数**,误差仍未反弹,表明模型具有良好的泛化稳定性。 ## 意义与展望 IRNO的工作不仅提供了一种实用的算法,更从理论上将神经算子与**经典数值分析中的不动点迭代**联系起来,为理解深度学习中的迭代推理机制提供了新视角。未来,该方法有望推广至更广泛的偏微分方程求解、气候建模及工程仿真场景,成为连接数据驱动与物理驱动方法的桥梁。 论文代码已开源,感兴趣的研究者可进一步复现与扩展。

HuggingFace6天前原文

一篇来自 arXiv 的新研究《Hidden-State Privacy Has an Empty Middle》揭示了一个令人警醒的发现:在单层隐藏状态隐私保护中,**没有任何一种高斯扰动机制能同时实现中等水平的隐私和效用**。研究对 1536 种高斯发布协方差进行了测试,结果为零。 ## 核心发现:Fisher 球下界 研究者证明了一个互补的 Fisher 球下界:对于任何满秩的高斯发布机制,若其 Fisher 效用为 O(1),则必然存在一个方向,其马氏距离信号随隐藏宽度线性增长。这意味着在该机制类中,不存在统一的高斯安全性,与实验观察到的“空中间”现象完全吻合。 ## 唯一最优机制:对角逆 Fisher 发布 在众多机制中,**对角逆 Fisher 发布** Σ*_diag(K) = (2K/d) diag(1/F_ii) 被证明是 KL 预算 K 下唯一的最小最大最优对角机制。在 32 层模型网格的每个点上,它都能将最坏情况攻击者的 top-1 准确率控制在 0.001 以下。然而,它位于隐私/效用的边界上,而非中间区域。 ## 自适应攻击的威力 研究还展示了自适应攻击的破坏性:一个广义特征机制在欧氏距离检索下能达到 13 倍帕累托改进,但在自适应马氏攻击者面前,其 top-1 准确率直接崩至 100%。一个全轨迹序列逆变器能恢复 GPT-2 前缀的 94%,但在 Σ_diag 保护下则完全失效。 ## 架构协同设计的曙光 面对高斯类机制的固有局限,研究转向架构协同设计。一个从头训练的**分割记忆 Transformer**(Split-Memory Transformer)在 90M 参数时达到 G_Mah ∈ [20, 33],并在 30M 到 1B 参数范围内,以固定的 token 语言建模损失惩罚,相比同预算的 GPT 基线保持 6-24 倍的优势。而预训练模型最高仅为 9.3。 这些结果将隐藏状态发布问题从高斯类内的机制设计,重新定义为**架构或发布协同设计**。研究者认为,要真正填补隐私与效用的中间地带,必须超越传统的高斯扰动框架。

HuggingFace6天前原文

**科学发现本质上是一个闭环过程**:假设指导数据采集,而观测结果反过来修正假设空间。然而,当前大多数方法将科学发现简化为对固定数据集的监督学习,有限的观测往往支持多个看似合理的机制,这些机制在局部拟合良好,却无法泛化到新场景。因此,核心挑战在于如何选择信息量最大的观测来消除不确定性——这需要从静态推理转向自适应数据采集。 针对这一难题,来自弗吉尼亚理工大学等机构的研究团队提出了 **LLM-AutoSciLab**,一个将假设生成与假设条件实验选择、机制修正相耦合的闭环框架。不同于将模型拟合到被动收集的数据上,LLM-AutoSciLab 迭代地提出合理假设,选择最具区分力的实验来验证或修正这些假设,并根据实验结果更新自身状态。 为评估这种动态、闭环的科学发现能力,团队还发布了 **ActiveSciBench** 基准测试集,包含两个子集:ActiveSciBench-Chem(57 个酶动力学任务)和 ActiveSciBench-GRN(45 个基因调控网络任务)。这些任务将发现过程建模为预算受限的流程,要求算法具备自适应实验设计、变量选择和真实机制恢复能力。 实验结果令人振奋:在 NewtonBench、ActiveSciBench-Chem 和 ActiveSciBench-GRN 上,LLM-AutoSciLab 分别取得了 **67.6%** 和 **35.1%** 的符号准确率(前两个任务),以及 **31.1%** 的精确图恢复率(GRN 任务)。更关键的是,假设引导的实验设计在样本效率上比最强基线高出 **2-5 倍**。 ## 从被动学习到主动探索:科学发现的新范式 传统机器学习在科学发现中的应用往往受限于固定数据集:模型从已有数据中学习映射关系,但数据收集本身是独立于模型需求的。LLM-AutoSciLab 打破了这一局限,它让大语言模型(LLM)扮演“科学家”角色,主动设计实验来检验假设。这种闭环范式更接近真实科研流程:先提出假设,再通过实验获取关键数据,最后根据数据修正或选择假设。 ## 核心机制:假设生成、实验选择与机制修正 LLM-AutoSciLab 的每次迭代包含三个步骤: 1. **假设生成**:基于当前知识状态,LLM 提出一组候选机制(如数学方程或网络结构)。 2. **实验选择**:根据信息增益或不确定性度量,选择最能区分不同假设的实验(如特定条件下的观测变量)。 3. **机制修正**:根据实验反馈,更新假设空间,剔除或修正不符合观测的机制。 这一过程循环进行,直到预算耗尽或不确定性降低到阈值以下。 ## 基准测试与性能亮点 ActiveSciBench 的设计颇具挑战:每个任务都有真实的底层机制(如 Michaelis-Menten 动力学方程或基因调控网络),算法需要在有限实验预算内恢复这些机制。LLM-AutoSciLab 在符号准确率上大幅领先传统贝叶斯优化、主动学习等方法,尤其在样本效率上表现出色——仅用基线 1/5 的实验次数就能达到同等精度。 ## 行业意义与未来展望 LLM-AutoSciLab 展示了 LLM 在科学发现中的巨大潜力:不仅是作为知识库或代码生成器,而是作为闭环探索的核心决策者。该框架可应用于药物发现、材料设计、系统生物学等领域,加速假设验证和机制发现。未来工作可能包括:整合多模态实验数据(如图像、序列)、扩展到更复杂的因果发现任务,以及探索人机协作模式。 项目代码和数据集已开源(https://github.com/sanchit-kabra/LLM-AutoSciLab),感兴趣的读者可以复现并扩展这一方法。

HuggingFace6天前原文

## 核心发现:智能体工作流的“不可能三角”有了数学解 随着大语言模型(LLM)从单次问答走向多智能体协作,系统设计者面临一个根本挑战:如何在**延迟、可靠性和成本**之间取得最优平衡?一篇来自纽约大学的研究论文(arXiv:2605.23929)为这一难题提供了理论框架和可操作的优化策略。 ## 关键突破:水填充策略与影子价格 研究团队将LLM智能体与非LLM模块(如传统计算单元)统一建模,提出了**参数化指数可靠性函数**来描述LLM输出质量与计算投入(推理token、输出token数量)之间的关系。在此基础上,他们分析了顺序工作流在延迟和成本约束下的设计问题,主要贡献包括: - **水填充(Water-Filling)token分配策略**:类似通信系统中的功率分配,该策略将有限的token预算按“边际收益最大化”原则分配到工作流的各个步骤,从而在固定延迟或成本下最大化整体可靠性。 - **影子价格(Shadow Prices)刻画最优可靠性**:通过拉格朗日对偶分析,论文揭示了延迟约束、成本约束与工作流可靠性之间的量化关系——每个约束的“影子价格”反映了放松该约束能够带来的可靠性提升幅度。 ## 对AI工程实践的意义 当前,LLM智能体工作流在代码生成、自动化客服、科学实验等场景中快速普及,但“如何配置agent数量、分配token预算、选择模型规模”等问题往往依赖经验。该研究首次从**最优化理论**角度给出了系统性的答案: 1. **延迟敏感场景**(如实时对话):应优先减少推理token数,采用更小的模型或更短的思维链。 2. **高可靠性场景**(如医疗诊断):允许更高延迟和成本,但需通过水填充算法找到token分配的“甜点”。 3. **成本受限场景**(如大规模批处理):可牺牲部分可靠性,但影子价格分析能帮助判断哪些步骤值得投入更多token。 ## 未来展望:从单链到图结构 目前的研究聚焦于**顺序工作流**,但实际系统往往包含并行、分支和循环结构。作者指出,将优化框架扩展到有向无环图(DAG)工作流是下一步方向。此外,LLM的可靠性函数参数(如指数模型的衰减率)如何从实验数据中拟合,也是工程落地的关键。 > 小结:这篇论文为LLM智能体工作流的设计提供了“第一性原理”式的数学基础,有望将当前的经验调优升级为可量化的最优控制。对于AI工程师而言,理解水填充策略和影子价格概念,将有助于更理性地配置计算资源。

Anthropic6天前原文

## 游戏设计的新视角:量化时间机制与AI协作研究 近日,一篇题为《Quantum Frog: Emergent Cooperation and Difficulty Scaling in a Quantized-Time Cooperative Game》的论文在arXiv上发布,提出了一款名为**量子青蛙**的双人合作游戏,其核心是**量化时间**机制——只有当玩家采取行动时,游戏环境才会推进。该游戏受经典街机游戏《青蛙过河》启发,要求两只青蛙在8×8的交通网格中合作穿越,共同到达对岸。 研究者使用强化学习作为分析工具,探讨了四个设计问题: - 游戏难度如何随交通密度变化? - 单智能体的最优策略是什么? - 独立双智能体与协作双智能体之间的合作差距有多大? - 当智能体被激励合作时,会涌现出怎样的联合策略? 他们通过五个逐步升级的阶段训练智能体:**表格型Q学习、深度Q网络、独立深度Q网络**,以及**多智能体近端策略优化**(带集中式评论家),并在1到6辆车的交通密度下进行评估。 ### 关键发现 1. **冲刺策略为最优**:量化时间机制使得“冲刺策略”(每步直接向上移动)成为普遍最优选择,因为这样可以最小化暴露在交通中的时间。 2. **合作难度惊人**:添加一个不协调的第二玩家,比单专家玩家面对六倍交通量还要困难。 3. **协作训练显著提升性能**:相比独立智能体,协作训练使联合成功率提高**32-34个百分点**,并将回合长度从约90步缩短至约6步。 4. **涌现策略为同步冲刺**:涌现的合作策略是同步冲刺,而非复杂的空间协调,这表明在时间关键型合作任务中,共享激励足以对齐智能体行为。 ## 行业意义与启示 这项研究为游戏设计提供了实证指导,尤其是如何利用环境机制塑造多智能体学习动态。量化时间机制不仅简化了最优策略,还揭示了合作中沟通与协调的本质差异。对于AI领域,该工作展示了**多智能体强化学习**在合作场景中的潜力,以及简单环境设计如何催生涌现行为。 未来,量子青蛙的设计原则可应用于需要实时协作的领域,如自动驾驶车队协调或机器人团队作业。论文地址:https://doi.org/10.48550/arXiv.2605.23930

Anthropic6天前原文

工业异常检测是工业系统安全运行的核心挑战之一。随着异构工业传感器的快速发展,工业异常检测已从单模态走向多模态。然而,现有方法大多针对集中式和离线场景设计,忽视了真实工业环境中数据分布式、持续生成的特点。为此,研究者提出了 **多模态在线分布式工业异常检测(MODIAD)** 框架,并针对其中跨类别模型更新的协调问题,设计了 **多类智能调度(MIS)** 方案,通过 **序贯边际增益贪心(SMG)** 算法在资源约束下实现高效的多类训练。同时,为降低训练过程中的计算与通信开销,还引入了 **资源高效类级低秩自适应(REC-LoRA)** 策略,在保持检测性能的前提下显著减少系统开销。在 MVTec 3D-AD 和 Eyecandies 两个代表性多模态工业异常检测数据集上的实验表明,该方案在 MODIAD 场景下取得了优越的性能和效率。 ## 背景与问题 工业异常检测传统上依赖集中式服务器处理所有数据,但在实际产线中,数据往往由分布在不同地点的边缘设备持续产生。边缘智能的发展使得这些设备不仅能够采集数据,还能参与分布式模型训练,形成协同智能。然而,多模态数据(如 3D 点云与 RGB 图像)的融合、多类别产品的异质性以及在线学习的动态性,给分布式训练带来了新的挑战。 ## 核心方法 ### 多类智能调度(MIS) 在分布式环境中,不同类别的产品(如不同型号的零件)可能具有不同的数据量和异常模式。MIS 问题旨在通过平衡数据充足性和类别更新频率,协调跨类别的模型更新。SMG 算法通过贪心策略逐步选择最优的类别进行训练,在有限资源下最大化整体检测性能。 ### 资源高效类级低秩自适应(REC-LoRA) 为降低分布式训练中的通信与计算开销,REC-LoRA 借鉴了 LoRA 的思想,但针对多类别场景进行了改进。它允许每个类别独立学习低秩适配矩阵,而非更新整个模型参数,从而大幅减少传输数据量。同时,通过类级参数共享和结构化稀疏,进一步提升了资源效率。 ## 实验验证 研究者在 MVTec 3D-AD 和 Eyecandies 数据集上进行了评估。MVTec 3D-AD 包含多种工业产品的 3D 点云与 RGB 图像,Eyecandies 则提供合成糖果产品的多模态数据。实验对比了多种基线方法,包括集中式训练、独立训练以及传统分布式训练。结果显示: - **检测性能**:MODIAD 在多数类别上达到了最优的 AUC 和 F1 分数,特别是在数据分布不均的场景下优势明显。 - **通信效率**:REC-LoRA 将通信量降低至全参数更新的 10% 以下,同时保持检测精度几乎无损。 - **训练效率**:SMG 调度策略使得模型收敛速度提升约 30%,且对资源消耗更少。 ## 意义与展望 这项工作为工业异常检测走向边缘分布式部署提供了切实可行的技术路径。未来,随着工业物联网的普及,类似 MODIAD 的框架有望在实时质检、预测性维护等场景中发挥关键作用。研究者也指出,当前方法在类别数量极大时的调度开销仍需优化,且对非独立同分布数据的鲁棒性有待进一步验证。

HuggingFace6天前原文

蛋白质-配体建模是计算药物发现和分子设计的核心。现有基准大多通过二分类结合预测和亲和力回归来评估模型,但这些任务只能判断“是否结合”和“结合强弱”,无法揭示模型是否真正定位了结合位点或识别了非共价相互作用。为了填补这一空白,研究团队推出了 **InteractBind**——一个包含约10万对蛋白质-配体的大规模数据集,并配套了细粒度评估基准。 ## 核心任务:结合位点定位 InteractBind的核心是结合位点定位任务。它利用蛋白质残基-配体原子相互作用图(涵盖六种主要非共价相互作用类型)来检验模型生成的相互作用图是否能准确指示结合位点。此外,数据集还提供了结合亲和力和蛋白质相似性控制的分割,以支持更真实的泛化能力评估。 ## 八种模型评测:强结合预测,弱位点定位 研究团队对八种现有的序列基和交互感知模型进行了评估,包括二分类结合预测和结合位点定位。结果令人警醒:尽管这些模型在二分类结合预测上表现优异(即能较好地判断“是否结合”),但在结合位点定位任务上能力有限,且在不同非共价相互作用类型上表现差异显著。 ## 意义与启示 InteractBind建立了一个新的基准范式,鼓励开发更具可解释性和物理基础的蛋白质-配体模型。该工作目前正在接受 **NeurIPS 2026** 的评估与数据集赛道评审。对于AI制药领域而言,这一基准提示我们:**模型的高预测性能可能只是学会了结合概率的统计模式,而非真正理解了分子识别的物理机制**。未来的模型需要在可解释性和物理合理性上做出更多努力。

HuggingFace6天前原文

## 概述 传统AI聊天机器人依赖用户提示进行被动响应,而**Context**——Magarshak架构的智能层——彻底改变了这一范式。它通过三个核心机制构建了**主动目标导向的智能体**,无需等待用户输入即可自主推进共享任务。 ## 三大核心机制 1. **写入时上下文组装**:利用Groker代理预先计算丰富的类型化属性,将交互上下文作为图状态的确定性纯函数进行组装。上下文块在语义变化之间保持字节一致,从而实现接近**100%的KV缓存复用**,大幅降低推理成本。 2. **可组合沙盒智慧程序**:由LM生成的命令式程序组成受控库,通过类型化流关系声明式绑定到目标类型,并经过阶段排序进行组合。这些程序在交互时执行,无需进一步调用LM,实现了高效的离线计算。 3. **主动目标流状态机**:通过检查图状态并发出结构化交互内容(选项数组、治理权限、澄清提示)来驱动对话向终止状态推进,无需等待用户输入。 ## 形式化理论成果 论文证明了**六项形式化定理**,包括: - 上下文稳定性定理:将每轮LM成本限制为语义变化率的函数 - 程序组合正确性定理 - 声明式布线可靠性定理 - **主动主导定理**:证明主动智能体在达到终止状态的预期轮次上弱主导被动智能体 - 协调开销消除与质量保持定理:在多参与者目标聊天中实现帕累托改进 - 跨平台投票一致性定理 ## 实际意义与行业背景 在当前的AI行业,**大语言模型(LLM)推理成本**和**延迟**仍是制约应用落地的关键瓶颈。Context通过KV缓存复用和离线程序执行,显著降低了每轮交互的计算开销。此外,其主动推进机制减少了用户提示次数,提升了任务完成效率。 该架构基于开源栈**Qbix/Safebox/Safebots**实现,为构建自主智能体提供了可复用的基础设施。与被动响应式模型相比,Context在**多参与者协作任务**中展现出明显优势,例如团队项目管理或多方决策场景。 ## 小结 Context代表了从**被动聊天机器人**到**主动目标驱动智能体**的重要转变。通过将计算从交互时转移到写入时,并利用声明式编程和状态机驱动,它为解决AI系统的效率与自主性难题提供了新的思路。这一架构不仅具有理论严谨性,更具备实际部署的潜力。

Anthropic6天前原文

在算法交易市场中,预测模型不再仅仅是“旁观者”。它们输出的交易指令、资产配置、执行计划或风险控制,会直接改变市场未来的数据分布。这种“自我实现的预言”给传统时间序列预测带来了根本性挑战。近日,一篇发表于 arXiv 的论文《Algometrics: Forecasting Under Algorithmic Feedback》正式提出了 **Algometrics(算法计量学)** 这一全新框架,专门研究那些受预测算法反馈影响的时间序列。 ## 核心问题:预测改变被预测的对象 论文作者 Marc Schmitt 指出,在算法市场中,预测模型会嵌入到数据生成过程中。当模型输出被转化为实际交易或风险决策时,它们会改变后续的市场状态,进而影响模型自身的评估数据。这导致了一个关键矛盾:**历史风险**(在被动预测下测量)与**部署风险**(当预测驱动行动时测量)可能截然不同。 ## 三大理论结果 论文证明了三个重要结论: 1. **部署风险不可仅从历史数据识别**:即使在一个最简单的线性反馈模型中,也存在无数种算法介入的环境,它们能产生相同的“历史规律”,但对同一预测器却意味着不同的部署风险。这意味着,单纯依赖历史回测无法可靠评估模型上线后的真实表现。 2. **历史排名可能在拥挤效应下反转**:当多个相似算法同时被采用时,原本在被动测试中表现更好的模型,其部署误差反而可能更高。这揭示了算法“拥挤交易”带来的系统性风险——模型表现不仅取决于自身,还取决于竞争对手的行为。 3. **随机化或工具变量可识别短周期反馈**:论文进一步推导出,通过引入随机化或工具变量行动,可以在有限样本下估计短周期线性反馈的部署风险,并给出了有限样本误差界。 ## 行业启示:基准测试需要“反馈敏感性” 这一研究对 AI 和量化金融领域具有深远意义。当前大多数时间序列基准(如 M4、M5 竞赛)仍停留在“预测精度”的单一维度,忽略了算法反馈对模型实际效用的影响。论文建议,未来的时间序列基准在报告预测准确度的同时,**应补充反馈敏感性指标**,以反映模型在真实部署环境中因自身行为引发数据变化后的鲁棒性。 ## 应用前景与挑战 Algometrics 框架不仅适用于高频交易和做市策略,还可扩展到**推荐系统、自动驾驶决策、动态定价**等任何模型输出影响环境的场景。然而,如何在实际系统中设计有效的随机化或工具变量方案,以及如何将理论扩展到非线性、高维反馈场景,仍是开放问题。 ## 小结 这篇论文为“预测即干预”的时代提供了理论基础。它提醒我们:在 AI 深度嵌入决策系统的今天,预测模型不再是静态的“地图”,而是与市场共同演化的“活地图”。理解并量化这种反馈效应,将是下一代智能系统的关键能力。

HuggingFace6天前原文

## 大模型“想太多”?新研究量化推理冗余度:61%-93%的思考都是多余的 OpenAI o1、DeepSeek-R1等推理型大语言模型(LLM)通过生成超长思维链(Chain-of-Thought)来解决复杂问题,但代价是高昂的延迟、GPU算力和能耗。一篇来自 arXiv 的新论文 `How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning` 首次系统性地量化并解释了这种“过度思考”现象——结论令人震惊:**在多个前沿模型和基准测试中,高达61%至93%的推理步骤是冗余的**。 ### 冗余度高达93%,多数问题只需一步思考 研究人员提出了一种直接基于推理模型自身的冗余度量化方法:对于一条正确的思维链,冗余度定义为“可被截断的末尾分段步骤的最大比例”,截断后模型被迫终止思考并直接输出答案,仍能得出正确结果。 实验覆盖了四个主流推理模型(包括OpenAI o1系列、DeepSeek-R1等)和两个数学推理基准(MATH-500和另一个),共8个(模型,基准)条件。结果显示: - **步骤级冗余度(ρ)在61%至93%之间**,意味着模型的大部分推理步骤对最终正确答案并非必要。 - 在8个条件中的6个,**中位关键前缀(critical prefix)仅为单个分段步骤**——即大部分问题只需一步思考就能答对。 - 随着问题难度增加(MATH-500的Level 5),冗余度有所下降,但**即使在最难的问题上,冗余度仍高达46%至85%**。 ### 冗余不是Bug,而是训练机制的结构性结果 更引人深思的是理论分析部分。研究证明:**这种冗余是“长度无关的结果奖励”(length-agnostic outcome rewards)的结构性后果,而非模型特有的缺陷**。 在当前的强化学习(RL)训练范式下,模型只根据最终答案是否正确获得奖励,而不惩罚思考链的长度。论文证明:**在任何此类奖励机制下,不存在有限的最优停止时间**——模型总会倾向于继续思考,因为多一步思考至少不会降低正确概率,而停止则可能出错。 这一结论不依赖于具体的RL算法、基础模型、数据分布,也不管策略是通过RL还是蒸馏获得。因此,**“过度思考”不是某个模型可以修补的bug,而是当前推理模型训练方式固有的结构特性**。 ### 对AI行业的影响与启示 这项研究对AI推理模型的优化方向提出了根本性挑战: 1. **效率优化迫在眉睫**:如果大部分推理步骤是冗余的,那么通过“思考预算”(thinking budget)控制或早期退出机制,有望在不牺牲准确率的前提下大幅降低推理成本。 2. **奖励机制需要改革**:引入长度惩罚或过程奖励(process rewards)可能从根源上缓解过度思考。但论文警告,简单截断可能损害模型在困难问题上的表现,需要更精细的设计。 3. **重新审视“推理能力”**:当前的思维链是否真的反映了“推理”,还是更像一种随机搜索和验证?冗余的普遍性提示我们,模型可能并未学会高效推理,而是学会了“用大量计算换取可靠性”。 ### 小结 这项研究首次从理论和实证两个层面揭示了LLM推理中的严重冗余现象。对于追求实时性、低成本的AI应用(如代码助手、智能客服),这一发现意味着巨大的优化空间。而对于整个AI社区,它提醒我们:**更长的思考不一定更聪明,如何让模型“想得少、想得准”才是下一阶段的关键课题**。

Anthropic6天前原文

## 背景:内核形式化验证的瓶颈 操作系统内核的形式化验证需要精确的规格说明(specifications),以捕捉系统调用的预期行为。然而,手动编写这些规格需要深厚的领域知识,非常耗时且容易出错。近年来,大型语言模型(LLM)被用来自动化这一过程,但在 **OSV-Bench** 基准测试中(包含 245 个源自 Hyperkernel 内核的规格生成任务),最佳报告的 **Pass@1** 仅为 **55.10%**。 ## BODHI:领域知识注入的提示方法 来自 **Zhiming Chang 和 Ziyang Li** 的研究团队提出了一种名为 **BODHI**(Domain Knowledge Prompting)的方法,通过结构化领域知识提示来提升 LLM 的规格生成能力。BODHI 在标准少样本提示(few-shot prompt)基础上,增加了一个结构化的 **C 到 Python 翻译指南**,覆盖了 **15 类领域特定的翻译模式**。该指南受 **结构化思维链(SCoT)** 启发,按关注点分离原则组织,将前置条件提取和后置条件生成作为独立的类别处理。 ## 实验结果:全面超越基线 研究团队在来自 **6 个提供商(Anthropic、Mistral、Amazon、DeepSeek、Meta、Alibaba)** 的 **9 个模型** 上进行了评估,涵盖了密集、混合专家和推理架构。结果显示,**BODHI 提升了每一个测试模型**,增益范围从 **+11% 到 +32%**。最佳配置 **Claude Opus 4.6 + BODHI** 达到了 **96.73% 的 Pass@1**,几乎完美。 BODHI 同时减少了语法错误和语义错误,对具有足够指令遵循能力、能够利用结构化参考材料的模型效果最为显著。 ## 意义:模型无关的通用技术 这些结果表明,**领域知识注入是一种与模型无关的技术**,能够显著缩小通用代码生成与形式化规格合成之间的差距。BODHI 不仅为操作系统内核验证提供了高效工具,也为其他需要领域专业知识的代码生成任务提供了可借鉴的方法。 **论文信息**:arXiv:2605.23931,提交于 2026 年 4 月 22 日。

Anthropic6天前原文

## 当 AI 开始“无目的”地创造:一项关于开放性的实验 在 AI 助理日益渗透科研与创作的当下,一个根本问题浮现:**机器能否像人类一样,进行真正“开放性”的探索——即不断产生新颖且有意义的成果,而不需要预设目标?** 一项来自纽约大学等机构的研究,试图通过复现经典交互进化平台 Picbreeder,来检验大型视觉语言模型(VLM)在这方面的潜力。 ### Picbreeder:人类开放性的范本 Picbreeder 是一个让用户通过“交互式进化”协作生成图像的经典平台。其核心机制简单而强大:用户从一组随机生成的图像中选择自己偏好的个体,然后系统通过变异和交叉产生新一代。经过多轮选择,图像会朝着意想不到的方向演化——从简单的形状逐渐变成复杂的生物、建筑乃至抽象艺术。**这种“无目标、无终点”的创造性过程,正是开放性的典型体现。** ### 用 VLM 替代人类:机器能复制这种探索吗? 研究团队用前沿 VLM(如 GPT-4V 等)取代了 Picbreeder 中的人类用户。在每个进化步骤中,VLM 被要求从当前种群中选出“最有意思”的图像,作为下一代的父母。为了模拟人类行为的多样性,他们还引入了三种干预手段: - **探索性噪声**:在选择过程中加入随机扰动,避免 VLM 过早陷入局部最优。 - **行为多样性**:让多个 VLM 代理采用不同的评价标准(例如一个偏好复杂性,另一个偏好对称性)。 - **叙事记忆**:让 VLM 记住之前的选择历史,形成连贯的“创作方向”。 ### 机器与人类的差距:不仅是“品味”问题 结果显示,**VLM 驱动的进化确实能产生视觉上可识别的图像,但与人类驱动的结果存在显著差异**。人类 Picbreeder 的图库中充满了令人惊讶的“意外之作”——比如形似动物、面孔或物体的图案,这些往往是用户个人偏好与随机变异碰撞的结果。而 VLM 生成的图像虽然也具备多样性,但整体更倾向于“典型化”和“审美安全”,缺乏那种出人意料的创意飞跃。 研究者使用**系统发育复杂性**(追踪图像谱系的形态变化)和**视觉/语义显著性**(图像在感知和意义层面的突出程度)等指标进行量化分析。初步发现:VLM 代理在缺乏“记忆”和“多样性”机制时,容易陷入重复的进化路径;而加入噪声和多样性后,图像的语义新颖性有所提升,但仍未达到人类水平的“惊喜感”。 ### 开放性的“配方”仍不完整 这项研究并非要证明 VLM 不如人类,而是试图拆解开放性背后的关键成分。**人类探索中那种“漫无目的的好奇心”可能依赖于复杂的认知机制——包括对意外性的包容、个人经验的投射,以及社会性的协作反馈。** 当前的 VLM 虽然具备强大的模式识别和生成能力,但在“主动寻求新奇”这一维度上仍显被动。 论文将于 GECCO 2026 发表,代码已开源。这项工作为未来设计真正具有“开放性”的 AI 系统提供了重要参考:**或许,让机器学会“无聊”并主动寻找意外,才是通往自主创新的关键一步。**

Anthropic6天前原文

亚马逊近期终止了对8款Kindle电子阅读器和Fire平板电脑的支持,这些设备将无法再访问Kindle商店。但这并不意味着它们完全沦为废品——用户依然可以通过USB传输或第三方工具继续阅读已下载的内容。 ## 哪些设备被列入“不支持”名单? 根据亚马逊官方公告,以下型号被移出支持列表: - **Kindle (第4代)** - **Kindle Touch (第4代)** - **Kindle Paperwhite (第5代)** - **Kindle Voyage** - **Kindle Oasis (第8代)** - **Fire HD 6 (第4代)** - **Fire HD 7 (第4代)** - **Fire HD 8 (第4代)** 这些设备大多发布于2012-2014年间,硬件性能已无法满足最新系统要求。 ## 失去支持意味着什么? 主要影响包括: 1. **无法访问Kindle商店**:不能直接购买或下载新书。 2. **无法同步阅读进度**:云端同步功能失效。 3. **无系统更新**:不再获得安全补丁和功能升级。 但**已购买的内容**仍可通过USB从电脑传输,或使用Calibre等工具管理。此外,这些设备仍可阅读本地文件(如PDF、MOBI格式)。 ## 是否值得继续使用? 对于轻度用户而言,这些老设备依然可以作为**专用阅读器**使用。E Ink屏幕的护眼特性并未过时,电池续航通常也优于现代平板。不过,如果依赖云服务或需要最新格式支持(如KFX),升级到新款Kindle或Fire平板会是更好的选择。 ## 行业视角 此举符合科技行业常见的“计划性淘汰”策略,但也提醒用户:数字内容的长期可访问性依赖于平台支持。对于收藏大量电子书的用户,建议定期备份本地文件。亚马逊这一动作也侧面推动了新款设备(如Kindle Scribe、Fire HD 10)的更新换代。 总之,失去支持不等于立即报废,但用户需权衡功能损失与使用习惯。

ZDNet AI7天前原文

AI 热潮推高了内存和存储设备的价格,但 **Best Buy** 在 **Memorial Day** 周末为 **金士顿 Fury Beast 64GB DDR5 内存套件** 提供了近 **200 美元** 的优惠——从原价 **1,175 美元** 降至 **999 美元**,节省 **176 美元**。 ## 为什么值得关注? 随着 AI 公司大量采购 RAM 和硬盘以建设数据中心和训练大语言模型,DIY 玩家和游戏玩家的升级计划屡屡受阻。这款内存套件以 **2×32GB** 双通道配置、**DDR5-5600MHz** 频率和 **CL40** 时序,适合高端游戏和多任务处理。虽然它并非市面上速度最快的 DDR5 套件(更高频的型号可达 6000MHz 甚至 6400MHz),但 **999 美元** 的价格在当前市场环境下已属难得。 ## 谁应该购买? - **游戏玩家**:需要大容量内存运行《赛博朋克 2077》等大作或同时开启直播、后台软件。 - **内容创作者**:视频剪辑、3D 渲染等内存密集型任务可受益于 64GB 容量。 - **AI 爱好者**:本地运行中型模型(如 LLaMA 系列)或进行数据预处理。 ## 注意事项 - 该价格仍高于 2023 年 AI 热潮前的水平,但对比近期涨幅已算“折扣”。 - 如果你不急需,可等待市场进一步回落;但 **Best Buy** 的库存有限,促销仅限 **Memorial Day** 期间。 - 兼容性方面,需确认主板支持 DDR5 和 5600MHz 频率(Intel 12/13/14 代或 AMD Ryzen 7000 系列)。 ## 小结 这次促销并非“史低价”,但在 AI 驱动的涨价潮中,它为刚需用户提供了一个相对合理的入手窗口。适合预算充足且不愿继续等待的玩家和创作者。

ZDNet AI7天前原文

在消防、救援、汽车维修和公用事业等户外作业场景中,普通笔记本电脑往往难以胜任。Getac G140 正是为这些严苛环境设计的坚固型Windows平板,它通过了 MIL-STD-810H 军规认证,具备 IP66 防护等级,能够抵御泥浆、雨水、跌落和极端温度。然而,ZDNET 的评测指出,这款平板在基础体验上存在明显短板:屏幕亮度在强光下偏暗,机身重量超过1.5公斤,长时间手持使用较为吃力。此外,其高昂的定价(起售价约 $2,500)也让普通消费者望而却步。 ## 核心亮点与短板 - **坚固性**:机身采用橡胶包裹和加固边角设计,可承受1.8米跌落;无风扇设计减少了故障点,同时支持手套和湿手操作。 - **性能**:搭载 Intel Core Ultra 处理器,运行 Windows 11 并支持 Copilot+ AI 功能,可满足现场数据采集、图纸查看等任务。 - **扩展性**:提供多个 USB-A/C、RJ45、RS232 接口以及可选车载底座和热插拔电池,适合需要连接多种外设的专业场景。 但评测者指出,**屏幕在户外阳光下几乎不可读**,且触控响应不如消费级平板灵敏。电池续航在重度使用下仅约6小时,对于全天候作业来说略显不足。 ## 行业视角 在 AI 和边缘计算日益普及的背景下,Getac G140 的 Copilot+ 支持为现场工作人员提供了本地 AI 辅助能力,例如语音转文字报告和实时图像分析。然而,其基础体验的妥协可能影响用户信任。对于预算充足且环境极端恶劣的团队,G140 仍是可靠选择;但若追求日常易用性,消费级平板搭配防护壳或许更具性价比。

ZDNet AI7天前原文

Memorial Day 促销季来临,家得宝(Home Depot)和劳氏(Lowe's)等零售商推出了大量电动工具优惠,最高可省 400 美元。无论你是 DIY 爱好者还是专业工匠,这都是入手高品质工具的好时机。 ## 精选优惠一览 - **DeWalt 20V Max 6 件套工具**:省 400 美元,涵盖钻头、冲击起子、圆锯等,适合全面升级工具体系。 - **Hoto 25 件套电动螺丝刀**:省 20 美元,便携轻巧,适合精密装配和家庭维修。 - **DeWalt 20V Max 钻头与冲击起子套装**:省 98 美元,核心动力工具组合,性价比突出。 - **Delta 变速木工车床**:省 298 美元,适合木工爱好者制作桌腿、碗等作品。 - **Milwaukee 12V M12 Fuel 组合套装**:省 180 美元,紧凑型专业工具,适合狭小空间作业。 这些优惠来自可靠零售商,但库存有限,建议尽早下单。更多详情可访问 ZDNET 获取完整清单。

ZDNet AI7天前原文

插电式太阳能系统(plug-in solar)利用微型逆变器将太阳能板产生的直流电转换为家用交流电,直接接入家庭电路。ZDNET 资深编辑 Adrian Kingsley-Hughes 在自家进行了长达数月的测试后指出,这种 DIY 能源技术虽然安装简便、成本相对较低(约 2400 美元),但在美国面临严重的法规障碍——目前仅犹他州通过了允许此类系统的立法。 ## 技术原理与优势 插电式太阳能系统的核心是微型逆变器(microinverter),它让用户无需专业电工即可将太阳能板“即插即用”地接入家中现有插座。与传统屋顶太阳能相比,省去了昂贵的安装费和漫长的审批流程。一套典型系统包含 4-6 块 400W 面板和配套微逆,总功率约 1.6-2.4kW,可覆盖部分家庭用电需求。 ## 法规限制:全美仅一州合法 最大的障碍在于政府监管。美国大部分州要求所有并网太阳能系统必须由持证电工安装并通过电网公司审批,插电式系统因缺乏隔离装置和电网保护功能,被认为可能对电网维护人员造成安全风险。截至目前,**只有犹他州**通过了明确允许插电式太阳能的法律,其他州要么禁止,要么处于法律灰色地带。编辑建议用户安装前务必查询当地建筑和电力法规,避免违法风险。 ## 经济账:回本周期长 以 2400 美元的系统成本计算,假设当地电价为 0.15 美元/度,系统年发电量约 2000-3000 度,每年可节省电费 300-450 美元。这意味着**回本周期需要 5-8 年**,而太阳能板寿命通常为 25 年,因此长期看仍可盈利。但如果用户搬家或法规变动,投资可能无法收回。 ## 行业背景与未来展望 插电式太阳能是分布式光伏的重要分支,尤其适合租房者、公寓住户和不愿长期绑定的用户。随着能源价格波动和环保意识增强,欧盟已有部分国家(如德国、荷兰)立法支持此类系统。美国若想推动能源民主化,亟需制定统一的安全标准,降低监管门槛。目前,行业组织正在游说更多州通过类似犹他州的法案,但进展缓慢。 ## 小结 插电式太阳能是一项有潜力的技术,但现阶段受限于法规和经济效益。对于动手能力强、所在州允许的用户,它可以作为传统太阳能的补充;对于大多数人,建议等待更明确的政策和完善的安全标准出台后再做决定。

ZDNet AI7天前原文

## 百思买阵亡将士纪念日大促:联想Legion Pro 5游戏本直降近50% 如果你一直在等待一个合适的时机升级游戏本,现在可能就是最佳窗口。百思买(Best Buy)为阵亡将士纪念日(Memorial Day)推出大幅折扣,将联想 Legion Pro 5 游戏本的价格从原价 **$3,449** 拉低至 **$1,789**,节省高达 **$1,660**,折扣幅度接近 **50%**。该优惠持续至 2026 年 5 月 25 日,但库存有限,建议尽早下单。 ### 核心配置与性能 这款 Legion Pro 5 定位中高端游戏市场,核心配置包括: - **屏幕**:2.5K(2560×1600)分辨率,高刷新率面板,适合竞技类游戏和内容创作。 - **显卡**:NVIDIA GeForce RTX 5060,支持光线追踪与 DLSS 3 技术,可流畅运行主流 3A 大作。 - **内存与存储**:16GB DDR5 RAM + 512GB SSD,兼顾速度与容量,满足游戏加载和多任务处理需求。 - **处理器**:搭载 AMD Ryzen 7 或 Intel Core i7 系列(具体型号未明确),性能释放强劲。 ### 购买建议与注意事项 1. **价格对比**:同配置机型在其它渠道通常售价在 $2,200-$2,500 之间,本次折扣力度罕见。 2. **适合人群**:追求高性价比的硬核游戏玩家、需要便携高性能笔记本的设计师或视频创作者。 3. **缺点提醒**:机身重量约 2.5kg,便携性一般;512GB 存储对于大型游戏库可能偏小,建议后续加装 SSD。 4. **购买渠道**:仅限百思买线上及线下门店,支持以旧换新和分期付款。 ### 如何获取优惠 无需使用优惠码,直接通过百思买官网或门店购买即可享受折扣价。建议加入 **ZDNET 推荐来源** 以获取更多实时降价提醒。 > **编辑评级**:5/5 星——本次促销性价比极高,适合急需升级设备的用户。

ZDNet AI7天前原文

森海塞尔最新旗舰头戴式耳机 **Momentum 5** 正式亮相,在延续系列经典设计语言的同时,带来了多项功能升级。其中一项重大改进尤其值得关注,它可能会改变你对这个老牌音频厂商的认知。 ## 设计传承与细节优化 Momentum 5 延续了前代简约、低调的设计风格,头梁和耳罩的材质进一步优化,佩戴舒适度得到提升。整体外观依然保持森海塞尔一贯的“专业感”,没有花哨的 RGB 灯效或夸张的造型,适合长时间佩戴。 ## 音质:自然、细腻的招牌声音 森海塞尔在调音方面始终坚持自然、均衡的风格。Momentum 5 的低频量感适中,不轰头;中频人声饱满且富有细节;高频延展自然,乐器分离度出色。无论是古典、流行还是电子乐,都能呈现出清晰且富有层次感的声音。对于追求“原汁原味”的发烧友来说,这种调音取向依然极具吸引力。 ## 重大升级:续航与连接性 本次最引人注目的升级是 **电池续航**。官方标称续航时间达到 **60 小时** 以上,这在前代 60 小时的基础上再次提升,足以满足一周甚至更长时间的通勤和出差需求。在真无线耳机普遍需要频繁充电的当下,Momentum 5 的续航能力无疑是一大卖点。 不过需要指出的是,虽然森海塞尔计划支持 **蓝牙 6.0**,但上市初期并未搭载该功能,用户需要等待后续固件更新。这可能会让部分追求最新技术的用户感到遗憾。 ## 降噪:仍非行业最强 在主动降噪方面,Momentum 5 的表现中规中矩。虽然相比前代有所改进,但依然 **弱于索尼 WH-1000XM6 和 Bose QC Ultra** 等竞品。对于通勤族或需要在嘈杂环境中隔绝噪音的用户来说,这可能是一个需要考虑的因素。 ## 市场定位与竞争力 Momentum 5 的定价依然维持在高端水平。它的核心优势在于 **音质、续航和佩戴舒适度**,而非降噪或花哨功能。在索尼、Bose 等品牌主打降噪和生态的当下,森海塞尔选择了一条差异化路线:服务那些对音质有更高要求的用户。这种定位虽然可能缩小受众范围,但也巩固了其在音频发烧友心中的地位。 ## 小结 Momentum 5 是一款特点鲜明的旗舰耳机:它在音质和续航上做到了极致,但降噪和蓝牙版本更新速度上仍有妥协。如果你追求长时间佩戴的舒适感、自然耐听的声音,并且不介意降噪表现,那么它无疑是值得考虑的选择。而对于降噪需求强烈的用户,索尼或 Bose 可能更合适。

ZDNet AI7天前原文

Alienware 16 Area-51 是当前市场上性能最强的游戏笔记本之一,为迎接阵亡将士纪念日,多款配置正在大幅促销,最高可省 650 美元。 ## 核心配置与优惠 本次促销涵盖多款配置,其中 **Intel Core Ultra 9 275HX** 处理器、**32GB RAM**、**GeForce RTX 5070 Ti GPU** 的版本售价降至 **3,249 美元**,直降 650 美元。该机配备 **16 英寸 OLED 显示屏**,色彩与对比度表现惊艳,为游戏和创作提供沉浸式视觉体验。 ## 性能与设计 作为 Alienware 旗舰系列,Area-51 采用全新模具,散热系统升级,确保高负载下性能稳定释放。RTX 5070 Ti 显卡支持光线追踪和 DLSS 3 技术,足以流畅运行 3A 大作。32GB 内存和高速 SSD 进一步保障多任务与加载速度。 ## 购买建议 对于追求极致游戏体验的玩家,此次促销性价比突出。不过,若预算有限或对便携性要求较高,也可关注同品牌其他机型。优惠截止于 Memorial Day 期间,建议尽早下单。 > 注:ZDNET 可能通过文中链接获得佣金,但不影响编辑推荐意见。

ZDNet AI7天前原文