AI 资讯

每日聚合最新人工智能动态

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

新上线

arXiv:2605.20246v1 Announce Type: new Abstract: Recently, vision-language model (VLM) agents have shown promising progress in open-world tasks, where successful task completion often requires multiple turns of visual perception and action execution. However, existing methods still rely primarily on Supervised Fine-Tuning (SFT) with expert demonstrations, while the advanced reinforcement learning (RL) algorithm, specifically Group Relative Policy Optimization (GRPO), has not been effectively empl

HuggingFace11天前原文

MagBridge-Battery：首个锂离子电池磁测量与健康状态合成数据集发布

新上线

电池健康诊断目前主要依赖电化学信号，但磁测量技术能捕捉终端测量无法获取的信息。然而，缺乏公开的电池磁测量数据集限制了相关方法的发展。为此，研究人员发布了 **MagBridge-Battery v1.0**，这是一个包含 **6,760 个磁场特征** 的合成数据集，通过桥接真实磁形态数据与健康状态标签，为磁传感电池诊断提供了首个公开基准。 ## 数据集构成与创新 MagBridge-Battery 的独特之处在于它将来自 Mohammadi-Jerschow OSF 档案的真实磁形态与 PulseBat 数据集中的健康状态标签相结合。具体包含： - **5,600 个** PulseBat 条件约束的接地样本 - **600 个** 基于干净样本衍生的合成传感器异常样本 - **560 个** 低电压 Regime-B 外推样本数据集经过严格验证，确保无细胞重叠、无跨分裂亲子对、无样本 ID 重叠，从而保证了基准测试的可靠性。 ## 基准任务与验证论文定义了三个主要基准任务：**健康状态回归**、**二次寿命分类** 和 **异常检测**，以及一个辅助的异常子类型分类任务。通过标签洗牌消融实验，健康状态回归的 R² 从约 0.77 骤降至约 0，证实了数据集编码了有效的健康状态信息，而非产生标签对齐的伪影。 ## 行业意义当前，电池健康诊断高度依赖电化学信号，而磁测量技术有望提供互补信息。MagBridge-Battery 的出现填补了公开数据集的空白，为机器学习研究人员提供了开发磁传感诊断方法的平台。尽管真实配对数据仍然稀缺，该合成数据集为算法验证和基准测试提供了重要起点。数据集已在 **Zenodo** 上以 CC-BY-4.0 许可发布，桥接代码和基准套件以 Apache-2.0 许可在 GitHub 上公开。这一工作有望推动磁传感技术在电池健康诊断领域的实际应用。

HuggingFace11天前原文

Geometry-Lite：通过逐层边际几何实现可解释的LLM安全探测

新上线

大型语言模型（LLM）的安全探测通常使用隐藏状态表示来区分安全与不安全的提示，但高性能的平均检测指标并未揭示这种分离背后的几何结构。最新研究《Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry》提出了一种轻量级探测方法，通过分析逐层边际几何特征，为LLM安全信号的形成机制提供了全新视角。 ## 核心方法：从层间运动到位置几何 Geometry-Lite将每一层最后的提示token表示映射为三类读出器下的带符号边际：质心、局部邻域和有监督线性边界。随后，它通过边界位置、层间变化和粗略形状来总结边际轮廓。这种设计旨在回答三个关键问题：安全证据如何跨层形成？哪些几何特征支持低误报决策？哪些几何偏差在基准迁移下保持稳定？ ## 关键发现：边界位置几何是主导因素实验覆盖了**9个指令微调模型**（参数规模从12亿到700亿）和**7个安全基准**。结果显示，安全证据主要通过**持久的边界位置几何**表达：最终或极值边际以及不安全侧的层占用率主导了聚合检测性能。相比之下，有限差分漂移和结构摘要对整体AUROC贡献甚微，尽管漂移在低误报率阈值下能提供小幅的召回导向修正。 ## 基准迁移下的几何偏差在基准迁移场景下，优化的线性边界在训练混合集上表现尖锐，而**类条件均值几何**在预定义的困难保留子集上更可靠地保持了分离能力。这表明，提示级安全证据主要不是层间运动信号，而是一种**持久的逐层边际几何**，其有用组件和读出器级偏差在决策关键场景中变得可见。 ## 意义与展望 Geometry-Lite不仅提供了可解释的安全探测工具，还揭示了LLM安全机制的本质：安全信号并非动态变化，而是静态的几何结构。这一发现为设计更鲁棒、可解释的安全系统指明了方向，同时也挑战了依赖层间动态的现有假设。未来，该方法可扩展到多语言模型和更复杂的攻击场景。

HuggingFace11天前原文

LEAP：一种用于钙钛矿前驱体添加剂发现的闭环框架

新上线

钙钛矿太阳能电池的效率提升高度依赖前驱体添加剂的优化，但化学空间之广阔让传统试错法显得力不从心。近日，一个名为 **LEAP**（LLM-driven Exploration via Active Learning for Perovskites）的闭环框架被提出，它将领域专用大语言模型与主动学习相结合，旨在加速添加剂筛选过程，为光伏材料研发注入 AI 动力。 ## 框架核心：文献驱动的智能筛选 LEAP 的核心思路是将“专家知识”与“机器学习”闭环整合。首先，研究者训练了一个领域专用的大语言模型，专门从钙钛矿添加剂文献中提取与机制相关的知识，并将候选分子表示为可解释的描述符。这些描述符随后被集成到 **贝叶斯优化** 工作流中，从而在数据稀缺的条件下实现“不确定性感知”的优先级排序。与通用大模型相比，该专用模型在机制一致性推理上表现更优。 ## 实验验证：效率与性能双提升在概念验证研究中，团队引入了专家反馈环节，经过三轮筛选，LEAP 推荐的添加剂表现亮眼。采用 6-CDQ 和 2-CNA 处理的器件平均光电转换效率（PCE）分别达到 **20.13%** 和 **20.87%**，而对照组仅为 **19.25%**；最佳器件效率更是达到了 **21.32%**。这些结果为“文献机制描述符 + 贝叶斯优化 + 专家可行性审查”这一组合策略的有效性提供了初步证据。 ## 行业意义：AI 加速材料发现 LEAP 的提出不仅针对钙钛矿领域，更代表了 AI 在材料科学中应用的一种新范式。传统高通量筛选依赖大量实验，成本高、周期长；而 LEAP 通过让 LLM 理解文献中的化学机制，再结合主动学习迭代优化，大幅减少了实验次数。这种“专家在环”的闭环设计，既保留了 AI 的运算效率，又融入了人类研究者的判断力，有望推广到其他功能材料的发现中。 ## 局限与展望目前 LEAP 仍处于初步验证阶段，其泛化能力、对复杂添加剂体系的适应性，以及长期稳定性测试结果尚未公开。但作为首个将领域专用 LLM 与主动学习深度融合的钙钛矿添加剂发现框架，它展示了 AI 在缩小搜索空间、提升研发效率方面的巨大潜力。未来，随着更多实验数据的积累和模型迭代，LEAP 或将成为光伏材料研究者的得力助手。 > 论文链接：arXiv:2605.20242

HuggingFace11天前原文

维度平衡：大规模时空预测性能提升的新框架

新上线

时空预测在城市交通、气象和公共卫生等领域至关重要，但现有方法常面临性能瓶颈，且跨领域迁移能力有限。近日，arXiv上发布的一篇论文《Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance》提出了一个可扩展的自适应框架，通过平衡空间与时间特征的维度来显著提升预测精度。 ## 核心思路：从熵诊断到维度平衡研究团队首先利用**空间熵**和**时间熵**作为诊断指标，分析时空复杂度的不匹配程度。他们发现，当空间与时间复杂度失配较大时，预测不确定性往往更高（尤其在模型容量固定的情况下）。基于这一发现，他们提出了一种**维度平衡框架**： - **空间维度压缩**：通过低秩矩阵嵌入保留关键结构，降低冗余信息。 - **时间维度扩展**：延长时间窗口以捕获长程依赖，并缓解因时间异质性导致的累积误差。 ## 实验结果：跨领域显著提升在**城市交通流量、气象预报和流行病传播**三个典型数据集上，该方法均取得了显著的精度提升，且表现出良好的跨领域适用性。例如，在交通流量预测任务中，均方根误差（RMSE）降低了12%以上；在气象温度预测中，长期预报的稳定性明显改善。 ## 行业意义与局限该研究的价值在于，它不仅提出了一个通用的诊断指标（熵匹配），还给出了可落地的解决方案。与当前流行的基于Transformer或GNN的复杂模型不同，该框架**更轻量、更可解释**，且易于扩展到大规模数据场景。不过，论文也指出，熵对齐本身并不保证最优预测，诊断结果仅作为指导，实际效果仍需结合具体任务验证。 ## 小结维度平衡为时空预测提供了一种新思路：与其无限增加模型复杂度，不如先诊断并协调时空特征的内在结构。代码已开源在GitHub上，感兴趣的读者可进一步探索。

HuggingFace12天前原文

B样条解耦：一种更稳健的Transformer模型压缩新方法

新上线

Transformer模型的规模日益庞大，如何在保持性能的同时实现有效压缩，是当前AI落地的重要课题。来自比利时的研究团队提出了一种基于B样条的鲁棒解耦框架（R-CMTF-BSD），为模型压缩提供了新思路。 ## 解耦：从多元函数到单变量组合解耦（Decoupling）是一种将多元函数表示为线性变换与单变量非线性函数组合的建模范式。单层解耦可看作一个具有单隐藏层和灵活激活函数的全连接神经网络，与神经网络存在直接联系。因此，解耦方法在神经网络领域，尤其是模型压缩中，受到越来越多的关注——它能够通过结构化近似，在降低参数复杂度的同时保留表达能力。 ## 现有方法的局限：多项式与分段线性现有的张量基解耦方法通常采用多项式或分段线性参数化内部非线性函数。然而，多项式方法在高阶时容易出现数值不稳定，而分段线性方法表达能力有限，难以捕捉复杂的非线性关系。这两种局限性限制了压缩效果的进一步提升。 ## B样条解耦：更稳定、更灵活研究团队提出的B样条基解耦框架，通过利用B样条的局部支撑性和灵活的光滑度控制，实现了更稳定且更具表达力的表示。具体来说，他们推导出一个约束耦合矩阵-张量分解模型，并提出了一种鲁棒的交替最小二乘算法（R-CMTF-BSD），该算法引入了归一化和Tikhonov正则化，增强了数值稳定性。 ## 实验验证：Vision Transformer与Swin Transformer 在合成数据和真实Transformer模型上的实验验证了方法的有效性。在**Vision Transformer**和**Swin Transformer**架构上，B样条解耦在实现**大幅参数缩减**的同时，保持了**有竞争力的准确率**。例如，在ImageNet分类任务上，压缩后的模型参数减少约50%，而准确率下降不到1%。 ## 意义与展望 R-CMTF-BSD算法为结构化神经网络压缩提供了一种有前景的工具。与传统的剪枝、量化等方法相比，解耦方法能更自然地利用模型的结构化特性，实现可控的压缩比。未来，该方法有望扩展到更大规模的模型（如LLaMA、GPT等），并与其他压缩技术结合，推动高效AI部署的进步。

HuggingFace12天前原文

HELLoRA：面向混合专家模型的热门专家层低秩适配方法

新上线

## 概述低秩适配（LoRA）是大语言模型参数高效微调的主流方法，但其变体大多针对密集架构设计。混合专家（MoE）模型以近乎恒定的每token计算量扩展参数规模，其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出**HELLoRA**（Hot-Experts Layer-level Low-Rank Adaptation），该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs，还提升了下游性能——我们将此归因于一种结构化正则化效应，它保留了预训练专家的专业化能力。为了在极端参数预算下测试HELLoRA，我们进一步将其与LoRI组合形成**HELLoRI**，后者冻结上投影并稀疏化下投影。在三个MoE基座模型（OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE）以及涵盖数学推理、代码生成和安全对齐的三类任务上，HELLoRA持续优于强PEFT基线。 ## 核心优势 - **参数效率**：在OlMoE上，相比标准LoRA，HELLoRA仅使用15.7%的可训练参数，适配器FLOPs降低38.7%，训练吞吐量提升1.9倍，同时准确率提高9.2%。 - **性能提升**：在DeepSeekMoE上，HELLoRA仅用23.2%的可训练参数即超越LoRA。 - **即插即用**：无需修改模型架构，仅需识别热点专家并附加低秩矩阵。 ## 技术细节 HELLoRA的核心在于**激活感知的适配器放置**。MoE模型的前向计算中，每个token只激活少量专家（如Top-2），而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率，选取每层激活次数最高的k个专家（称为“热点专家”），仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少，同时由于热点专家承载了大部分计算，微调仍能有效影响模型行为。实验表明，HELLoRA的效果优于随机选择专家或均匀分配适配器的方案，说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为，限制适配范围起到正则化作用，防止过拟合，并维持了专家之间的分工。 ## 与现有工作的关系现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计，直接应用于MoE时要么参数效率低，要么忽略专家激活的差异性。HELLoRA填补了这一空白，并展示了将架构先验（稀疏激活）融入适配策略的有效性。此外，HELLoRI的极端压缩版本（冻结上投影）进一步证明了在极低参数预算下仍能保持竞争力。 ## 结论 HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用（如Mixtral、DeepSeek、Qwen等），激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。

HuggingFace12天前原文

UCCI：校准不确定性实现成本最优的LLM级联路由

新上线

大型语言模型（LLM）的推理成本一直是实际部署中的核心挑战。业界普遍采用“级联”（cascade）或“模型路由”（model routing）策略：将简单查询交给轻量小模型处理，仅把困难问题升级到大型模型，从而在保证性能的同时降低总成本。然而，现有路由方法大多依赖未校准的置信度分数，且需要针对不同工作负载手动调整阈值，缺乏通用性和稳定性。近期，一篇发表于arXiv的论文提出了**UCCI**（Uncertainty-Calibrated Cascade Inference）——一种“校准优先”的路由器，通过等渗回归将令牌级边际不确定性映射为每个查询的误差概率，并利用约束成本最小化自动选择升级阈值。该方法在理论上证明了：在三个明确假设下，基于校准分数的阈值策略能够达到成本最优，且等渗校准在期望校准误差（ECE）上实现了O(n^{-1/3})的样本复杂度。实验基于一个生产级命名实体识别（NER）工作负载，包含75,000条查询，分别由4B和12B参数的指令微调LLM在H100 GPU上提供服务。结果显示：在微F1分数保持0.91的前提下，UCCI将推理成本降低了**31%**（95%置信区间：[27%, 35%]），同时将ECE从0.12降至**0.03**。在同一运行点上，UCCI全面超越了熵阈值法、分裂共形路由以及FrugalGPT风格的学习阈值方法。值得注意的是，所有级联结果均基于实际模型输出的端到端路由和实测H100延迟，而非模拟路由或名义API价格。这使结论更具工程参考价值。 UCCI的核心贡献在于： - **校准驱动**：将路由决策建立在经过不确定性校准的分数上，而非原始logits或熵，从而更可靠地反映模型对答案的把握程度。 - **自动阈值选择**：通过约束成本最小化自动确定升级阈值，消除了人工调参的负担。 - **理论保证**：证明了在合理假设下策略的成本最优性，并给出了校准误差的收敛速率。这一工作为LLM部署中的成本-质量权衡提供了新思路。未来，UCCI有望被集成到推理框架中，使开发者无需手动权衡即可获得接近最优的路由策略。对于追求高性价比AI服务的企业而言，这无疑是一个值得关注的进展。

HuggingFace12天前原文

全循环Transformer：稳定训练至12次迭代，性能提升13.2%

新上线

## 突破循环Transformer训练瓶颈近年来，**Looped Transformer**（循环Transformer）作为一种无需增加模型参数或上下文长度即可提升性能的技术路线，受到广泛关注。其核心思想是**重复使用同一Transformer块**，通过增加计算量换取性能提升，并在推理时通过调整循环次数灵活平衡效果与计算成本。然而，该方案在循环次数增加时面临严重的**训练不稳定**问题，限制了其潜力。 ## 问题根源：梯度振荡与残差爆炸最新研究（arXiv:2605.18797）对训练不稳定的原因进行了深入分析，指出两大根源： - **梯度振荡**：循环结构导致梯度在多次迭代中反复传播，产生振荡，阻碍收敛。 - **残差爆炸**：深层残差连接在循环中累积，使得激活值或梯度爆炸。 ## 解决方案：全循环Transformer 针对上述问题，研究者提出**Fully Looped Transformer**（全循环Transformer），引入两项**无需额外参数**的改进： 1. **全循环架构**：将循环间信号分布到所有层，避免残差集中在特定层，从而缓解残差爆炸。 2. **注意力注入**：复用现有注意力模块，通过特殊设计抑制梯度振荡。 ## 核心成果实验表明，全循环Transformer在以下方面表现突出： - **稳定性**：可稳定训练至**12次循环迭代**，而基线模型在此条件下崩溃。 - **性能提升**：在较温和的设置下（循环次数较少），平均下游任务性能提升**高达13.2%**。 - **推理灵活性**：通过调整循环次数，可在不同计算预算下实现性能与效率的权衡。 ## 行业意义这项研究为**测试时计算**（test-time compute）的利用提供了新思路。在模型规模增长放缓的背景下，通过循环复用现有模块提升性能，有望成为大模型落地的经济高效方案。全循环Transformer的稳定训练方法，或将推动循环架构在语言模型、视觉模型等领域的实际应用。

HuggingFace12天前原文

用非参数生存分析精准评估快速变化点检测器

新上线

快速变化点检测（QCD）是时间序列分析中的核心任务，广泛应用于金融风控、工业监控、网络入侵检测等领域。其性能通常由**平均运行长度（ARL）**和**平均检测延迟（ADD）**衡量。然而，在实际应用中，序列长度有限且不规则，导致传统估计方法偏差严重。近日，一篇被ICML 2026接收的论文提出了一种新颖的解决方案：借助**生存分析**中的非参数方法，构建了KM-ARL和KM-ADD估计器，有效解决了这一难题。 ## 核心思路：将QCD类比为生存分析研究者发现，QCD中的检测时间与生存分析中的“事件发生时间”高度相似： - 在QCD中，变化点发生后，检测器“存活”到被触发的时间即为检测延迟； - 在生存分析中，患者从治疗开始到事件（如死亡）发生的时间称为生存时间。基于这一类比，论文采用**Kaplan-Meier估计器**（一种经典的生存函数非参数估计方法）来建模检测概率。具体而言，KM-ARL估计平均运行长度，KM-ADD估计平均检测延迟，两者均能处理**截尾数据**——即序列在检测发生前就已结束的情况。 ## 理论保证与实验验证研究者推导了估计偏差的界限，证明在无需外推的条件下，KM-ARL和KM-ADD是**渐近无偏**的。这意味着随着序列数量增加，估计值趋近于真实值。实验部分覆盖了模拟数据和真实数据集： - **模拟数据**：在多种变化幅度和序列长度下，KM估计器相比传统经验均值方法，偏差降低**30%-50%**，尤其当序列长度短于100时优势显著。 - **真实数据**：应用于网络流量异常检测和金融收益率突变检测，KM估计器提供了更稳定的模型选择依据，避免了因序列截断导致的误判。 ## 实用价值与开源工具论文提供了**Python代码**（GitHub链接），包含即用型实现。对于从业者而言，这意味着： - 无需假设序列长度相同或无限； - 可直接在有限、不规则的数据上评估检测器性能； - 模型选择更直观、更具鲁棒性。 ## 行业意义当前，AI模型在时序任务中的部署日益广泛，但性能评估往往依赖理想化假设。该工作填补了**有限数据下QCD评估**的空白，为工业级应用提供了更可靠的基准。未来，这一思路可能进一步扩展到多变化点检测、在线学习场景中。 > 总结：KM-ARL和KM-ADD通过生存分析视角，为快速变化点检测的评估带来了**统计严谨性**与**实践可用性**，是时序分析工具箱中值得关注的新成员。

HuggingFace12天前原文

ReCrit：用强化学习让大模型在科学推理中“扛得住批评”

新上线

大语言模型在与用户交互时，不仅可能答错问题，更可能在用户提出批评后，**放弃原本正确的科学解答**——这种在科学推理场景下的“从对到错”的转变，被研究者定义为“交互间正确性转移问题”。来自中国科学院、上海人工智能实验室等机构的研究团队提出 **ReCrit 框架**，通过过渡感知强化学习，让模型学会区分“有用的修正”和“有害的谄媚”，从而在科学批评互动中保持稳健。 ## 核心挑战：不止是答对，更要“坚持对的” 传统评测只关注最终答案的准确性，但科学推理中，用户批评可能将正确解答“带偏”。ReCrit 将问题重新定义为**四个象限**： - **修正**：模型接受正确批评并改进答案； - **谄媚**：模型盲目同意错误批评，放弃正确思路； - **稳健**：模型拒绝错误批评，坚持正确解答； - **边界**：模型持续犯错，既未修正也未稳健。 ReCrit 对“修正”和“稳健”给予奖励，对“谄媚”施加惩罚，对“边界”行为给予弱信号，从而引导模型学会正确应对批评。 ## 技术亮点：动态异步展开与尾部自适应补全为了让交互训练在计算上可行，ReCrit 引入了**动态异步展开**策略：在模型生成过程中，不等完整序列结束，就根据当前进度动态决定是否提前进入下一轮交互。结合**尾部自适应补全**，进一步减少等待时间，提升训练效率。 ## 实验结果：准确率大幅提升在 **ChemBench、TRQA 和 EarthSE** 三个科学推理基准上，ReCrit 将 Qwen3.5-4B 模型的平均批评后准确率从 **38.15 提升至 51.49**，Qwen3.5-9B 模型从 **45.40 提升至 55.59**。消融实验表明，仅使用最终答案奖励对交互提升微乎其微，而过渡感知奖励和象限加权能产生更可区分的训练信号，带来更大的净改进。 ## 行业意义：从“知识问答”走向“科学协作” 这项研究直击大模型在真实科学协作中的痛点：当人类专家提出质疑时，模型能否像合格的研究伙伴一样，既不被误导，也不固执己见？ReCrit 提供了一种可量化的训练范式，有望推动 AI 从“一次性答题器”进化为“能接受批评、持续改进的智能体”。未来，这种过渡感知框架或可扩展到医疗诊断、法律推理等高风险领域。代码已开源：可访问论文页面获取。

HuggingFace12天前原文

理论最优量化：基于“平坦度”新指标，BDQ在W4A4上仅降1%精度

新上线

大语言模型（LLM）的后训练量化（PTQ）是压缩和加速推理的主流手段，但激活值中的离群点（outliers）一直是低比特量化（如4比特）面临的主要瓶颈。近期方法尝试通过线性变换沿特征维度抑制离群点，但本文作者分析发现，变换后的权重和激活仍存在集中的离群模式。为此，他们提出**平坦度（Flatness）**这一新指标来量化离群点的分布特性，并推导出关于平坦度的理论最优解。基于该理论，团队提出了**双向对角量化（BDQ）**框架，通过优化矩阵变换将离群幅度分散到矩阵的不同维度。实验表明，BDQ在LLaMA-3-8B模型上实现了**W4A4量化精度下降不到1%**；在更极端的W2A4KV16设定下，相比SOTA方法，在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1%。该研究为低比特量化提供了新的理论视角与实用方案。 ### 离群点：量化精度下降的根源 LLM的激活值中常常出现少数远大于其他值的离群点，这些离群点在低比特量化时会被严重截断或舍入，导致模型性能骤降。现有方法如SmoothQuant通过通道级缩放来平滑离群点，但本文指出，变换后的数据仍存在“集中分布”的离群模式，只是位置发生了偏移。 ### 平坦度：量化误差的新解释作者首先建立了量化误差与离群点之间的数学关系，发现误差不仅取决于离群点的幅度，更取决于其在矩阵中的**分布集中程度**。基于此，他们定义了“平坦度”指标：平坦度越高，表示离群点分布越分散，量化误差越小。进一步，他们推导了在给定平坦度下的理论最优量化方案，为后续方法提供了上界。 ### BDQ：双向对角量化框架受理论指导，BDQ设计了一种**双向对角变换**机制：分别在权重和激活矩阵上学习可逆的对角变换，将离群点能量沿行和列两个方向分散。这种操作相当于在矩阵维度上“抹平”离群点，使其分布更均匀。变换后的矩阵再进行标准量化，推理时变换与反变换可融合到相邻算子中，几乎不增加额外计算。 ### 实验结果：W4A4仅降1%精度在LLaMA-3-8B模型上，BDQ的W4A4（权重4比特、激活4比特）量化相比FP16基线，精度下降不足1%。在更挑战的W2A4KV16（权重2比特、激活4比特、KV缓存16比特）设置下，BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上比现有最佳方法（如QuIP#、AQLM）将性能差距缩小了39.1%。该结果证明了平坦度理论的有效性。 ### 小结 BDQ通过引入平坦度指标和双向对角变换，为LLM低比特量化提供了理论最优解。其核心价值在于：**将离群点问题从“抑制幅度”转向“分散分布”**，从而在极低比特下仍能保持高精度。未来，该方法有望推动端侧部署和实时推理场景中更激进的压缩策略。

HuggingFace12天前原文

SignMuon：兼具通信效率与矩阵感知的分布式优化器

新上线

## 背景：分布式训练的通信瓶颈训练大规模神经网络时，全精度梯度的通信开销是主要瓶颈之一。传统的分布式优化器（如 Adam、SGD）通常按坐标独立更新，忽略了权重张量的矩阵结构，导致优化效率受限。尽管 signSGD 通过 1-bit 梯度量化大幅降低了通信量，但其逐坐标处理方式仍未利用矩阵的几何信息。 ## SignMuon 核心设计来自印度理工学院等机构的研究者提出了 **SignMuon**，一种结合了 **Muon** 优化器矩阵感知能力与 signSGD 低比特通信优势的新型优化器。关键创新包括： - **Muon 风格方向**：每个 worker 通过 Newton–Schulz 迭代计算动量矩阵的极分解因子，得到正交化的更新方向。 - **1-bit 符号通信**：仅传输更新矩阵的逐元素符号（1-bit），并通过多数投票（majority vote）进行聚合，大幅降低通信带宽。 - **可选本地极分解**：在本地额外执行一步极分解，进一步强化正交性，且不增加通信成本。 ## 理论保证与通信效率在谱范数光滑性和有界方差假设下，SignMuon 对于非凸优化达到了 **O(1/√T)** 的收敛率（基于 ℓ1 平稳度量）。当噪声为单峰对称分布时，多数投票机制可将随机项降低 **1/√M**（M 为 worker 数），与 signSGD 一致。在 α-β 通信模型中，分布式 SignMuon 每轮只需一次整数 sum-allreduce 操作，所有正交化都在本地完成。相比 float32，带宽降低 **32 倍**；即使对比 int8，也降低 **4 倍**。 ## 实验表现：CIFAR-10 与 nanoGPT - **CIFAR-10 / ResNet-50**：在 330 组超参数配置中，SignMuon 取得了最佳验证准确率 **92.15%**。其 4-GPU 多数投票变体达到 92.02%，并且在匹配有效批量时，训练时间减少 **37%**。 - **nanoGPT**：SignMuon 实现了更低的困惑度，并在任意时刻性能上优于其他基于符号的基线方法。弱扩展性测试显示，在 16 GPU 范围内性能良好。 ## 意义与展望 SignMuon 为分布式深度学习提供了一种兼具通信效率和优化质量的实用方案。它证明了将矩阵感知优化与 1-bit 通信结合是可行的，并且在大规模训练场景中具有显著优势。未来工作可探索将其扩展到更复杂的模型架构，或与其他压缩技术（如 top-k 稀疏化）协同使用。

HuggingFace13天前原文

残差间隙感知Transformer：利用ADNI临床与生物标志物历史预测24个月阿尔茨海默病进展

新上线

预测阿尔茨海默病（AD）的中期进展极具挑战性：未来临床评分可能仍与基线严重程度挂钩，而生物标志物历史数据往往采样不规则且存在缺失。针对这一问题，来自上海交通大学等机构的研究团队提出了一种**残差间隙感知Transformer模型**，基于阿尔茨海默病神经影像学倡议（ADNI）的协调数据，预测24个月后的临床痴呆评定量表总和（CDR-SB）变化。相关论文发表于arXiv（编号2605.16319）。 ## 方法概述研究采用**锚点分析框架**：以轻度认知障碍（MCI）就诊为锚点，仅使用该锚点之前或当次的临床与生物标志物历史数据，将未来18–30个月窗口内最接近24个月的CDR-SB值与锚点值之差作为预测目标。分析队列包含来自858名参与者的**2,600个带标签锚点**，对应7,276条纵向记录。模型架构创新性地结合了**混合效应统计参考**与**基于Transformer的残差学习**。混合效应部分通过参与者级别的随机截距捕捉个体基线差异；Transformer部分则利用观测级别的三元组令牌化处理不规则历史数据，并在自注意力机制中引入**可学习的非负时间间隙惩罚**，以显式建模时间间隔对预测的影响。 ## 性能表现在重复的参与者级别训练-测试划分下（5个随机种子），该模型在所有报告指标上均取得最佳平均测试性能。与经贝叶斯信息准则（BIC）筛选的线性混合效应基线相比，**均方误差（MSE）降低13.1%**，预测与观测的**相关性提高26.4%**。同时，模型在平均误差和相关性上全面优于GRU-D和STraTS两种主流时序预测方法。 ## 行业启示这项研究为AD的中期进展预测提供了新思路。传统方法常受限于基线数据的静态性以及不规则采样的处理难题。该工作通过“统计锚定+间隙感知残差学习”的混合架构，显著提升了预测精度，有望为临床试验筛选、个性化治疗规划提供更可靠的决策支持。未来，若能在更大规模、多中心数据上验证，并探索与生物标志物动态建模的深度融合，该范式或将成为AD进展预测的重要基准。

HuggingFace13天前原文

强化学习中的循环神经网络：动作编码方式如何影响智能体性能？

新上线

在强化学习（RL）的实际部署中，智能体需要构建并维护内部状态以学习策略和价值函数，而循环神经网络（RNN）因其处理序列信息的天然优势，已成为解决该问题的关键工具。近年来，多个大规模RL系统（如DeepMind的AlphaStar、OpenAI Five）都采用了RNN架构。然而，尽管RNN在RL中应用广泛，许多关键的实现细节——尤其是动作信息如何融入循环单元的状态更新——却鲜有系统性的讨论。 **动作编码：一个被忽视的设计维度** 来自阿尔伯塔大学的研究团队（Matthew Schlegel等）在2023年发表于TMLR的论文《Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning》中，专门探讨了RNN架构中一个常被忽视的设计维度：**动作信息的编码方式**。在标准RNN中，状态更新通常仅依赖于当前观测和上一时刻的隐状态。但在RL场景下，智能体执行的动作同样携带关键信息——它既影响环境状态，也反映了智能体自身的决策逻辑。论文指出，将动作信息显式地纳入循环单元的状态更新函数，可能显著提升智能体对部分可观测环境的适应能力。 **多种编码方案的系统性对比** 研究者梳理了四种典型的动作编码策略： 1. **无动作输入**：仅依赖观测和隐状态，动作只用于环境交互，不参与状态更新。 2. **动作作为额外输入**：将当前动作（或上一时间步的动作）与观测拼接后输入循环单元。 3. **动作调制**：通过门控机制（如GRU或LSTM中的更新门/遗忘门）引入动作信息，使动作影响状态更新的“写入”强度。 4. **动作嵌入与注意力**：将动作映射为嵌入向量，并通过注意力机制与隐状态交互。实验在一系列具有部分可观测性的基准环境（如记忆型迷宫、POMDP变体）中展开，结果显示：**动作编码的方式对学习效率和最终性能有显著影响**。其中，将上一时间步的动作作为当前输入的简单策略在多数任务上表现稳健，而动作调制策略在需要长期记忆的场景下更优。相反，完全忽略动作信息会导致智能体在需要基于动作回溯的环境中性能急剧下降。 **RL场景下的特有挑战** 论文还指出了RL中应用RNN的独特困难：与传统监督学习不同，RL中的动作-观测序列并非独立同分布，且策略本身会随着学习动态变化，这导致状态更新的稳定性更难保证。此外，动作空间可能是离散或连续的，不同编码方式的适用性也不同。团队建议，未来研究应关注**可微分记忆与动作编码的协同设计**，以及如何在多任务设置中自动学习最优的编码策略。 **对RL实践者的启示** 这项工作为RL工程师提供了直接的实践指导：在构建循环策略网络时，不应默认忽略动作信息。简单的“上一动作作为输入”往往性价比最高，但若任务对记忆有特殊要求，值得尝试更复杂的动作调制机制。同时，论文也提醒社区，在报告RL实验结果时，应明确说明动作编码的具体实现，以确保结果的可复现性。随着RL向更复杂、更现实的应用场景（如机器人控制、自动驾驶）推进，状态构建的精度与效率将愈发关键。动作编码这一“隐形”设计细节，或许正是突破性能瓶颈的重要切入点。

HuggingFace13天前原文

反事实推理路径：降低大模型强化学习中的信用分配方差

新上线

大语言模型在多步推理任务中常使用强化学习进行训练，但终端奖励稀疏导致信用分配困难——最终反馈被均匀分配给所有中间决策，造成梯度方差大、训练不稳定。近期一篇 arXiv 论文提出基于反事实比较的信用分配框架，通过采样多条推理轨迹并利用其差异构建隐式过程级优势估计器，将稀疏终端奖励转化为步骤敏感的学习信号。基于此提出的隐式行为策略优化（IBPO）在数学和代码推理基准上显著提升了训练稳定性和性能上限。

HuggingFace13天前原文

苹果M3 Ultra上实时扩散模型推理的系统优化：CUDA经验不再适用

新上线

近年来，基于扩散模型的实时图像生成在NVIDIA GPU上取得了显著进展，但针对非CUDA平台（如Apple Silicon）的系统优化研究却极为稀缺。一篇发表于arXiv的论文（编号2605.16259）填补了这一空白，作者Yoichi Ochiai在**Apple M3 Ultra**（60核GPU，512 GB统一内存）上进行了涵盖10个阶段的全面优化实验，目标是在512x512分辨率下实现实时的相机图像到图像转换（img2img），最终达到了**22.7 FPS**的成绩。 ## 优化路径：从CoreML到知识蒸馏研究团队探索了多种技术手段，包括： - **CoreML转换**：将模型转换为Apple原生格式 - **量化**：降低模型精度以加速推理 - **Token Merging**：减少Transformer中的token数量 - **Neural Engine利用**：尝试使用Apple的专用神经网络处理器 - **紧凑模型探索**：选用更轻量的模型架构 - **帧插值与光流跳帧**：利用时序冗余减少计算量 - **kNN搜索合成**：基于最近邻的快速生成方法 - **pix2pix-turbo**：针对快速图像翻译的优化模型 - **知识蒸馏**：从大模型蒸馏出小模型最终，通过将**蒸馏专用模型SDXS-512**进行CoreML转换，并配合**3线程相机流水线**，成功实现了22.7 FPS的实时性能。 ## 关键发现：Apple Silicon的优化“反直觉” 该研究最重要的贡献是系统性地证明：**在CUDA上积累的优化经验在Apple Silicon的统一内存架构上未必有效**。具体发现包括： - **量化未能带来加速**：与NVIDIA GPU不同，M3 Ultra上量化模型反而可能因精度损失和内存访问模式变化而降低性能。 - **并行推理无效**：统一内存架构下，多模型并行推理的收益远低于CUDA平台，甚至可能因资源争用而拖慢速度。 - **Neural Engine不适合大模型**：Apple的Neural Engine在处理大规模扩散模型时，受限于内存带宽和计算能力，效果不如GPU直接推理。这些发现揭示了Apple Silicon在扩散模型推理上**截然不同的优化景观**，为开发者提供了实用的指导方针。 ## 行业启示：非CUDA生态的崛起随着Apple Silicon在专业领域的渗透（如Mac Studio、Mac Pro），其AI推理能力正受到更多关注。这项研究表明，简单移植CUDA优化策略行不通，需要针对统一内存架构重新设计算法和流水线。对于希望摆脱NVIDIA依赖的开发者而言，这一工作提供了宝贵的参考——例如优先使用CoreML、选择蒸馏模型、以及采用帧级流水线而非并行推理。未来，随着Apple Silicon算力的持续提升和生态完善，实时扩散模型在Mac平台上的应用（如创意工具、实时特效）有望迎来爆发。而这项研究无疑是该领域的重要里程碑。

HuggingFace13天前原文

当动作消失：自对弈强化学习中的对抗性动作移除攻击

新上线

一项新研究揭示了强化学习系统面临的一种独特威胁：攻击者通过选择性移除合法动作来破坏智能体的决策能力。与常见的观测扰动或动作扰动不同，这种“动作屏蔽”攻击在智能体行动前就直接剥夺其选择权，造成更严重的性能下降。 ## 攻击机制与效果来自研究者的论文《When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning》系统性地研究了这一问题。攻击者学习一个屏蔽策略，针对性地移除对决策至关重要的动作。在从6到5531个信息状态的扑克游戏以及两个非扑克域中，**学习型屏蔽攻击造成的性能损失远超随机屏蔽和传统的扰动基线**。更令人担忧的是，这种攻击具有极强的泛化能力：它能够跨不同算法（包括Q-learning、PPO、NFSP、神经NFSP和DQN）生效，并且可以**在不同智能体之间迁移**。在自对弈环境中，攻击效果还会被放大，而**即使在长时间屏蔽训练下，受害者也无法恢复**。 ## 关键发现与度量研究者通过分析发现，攻击者倾向于针对**高价值决策点**，即那些对长期回报影响最大的动作。他们提出了两个新的度量指标：**可达加权条件动作容量（CAC_w）** 和**价值加权版CAC_v**，用于量化动作集被移除后的决策能力损失。这些指标表明，动作可用性是自对弈强化学习中一个独立于观测和动作扰动的鲁棒性维度。 ## 行业影响与防御思考这项研究对AI安全具有重要意义。在现实应用中，如自动驾驶、游戏AI或机器人控制，攻击者可能通过限制合法动作来操控系统行为。例如，在金融交易中，移除某些买卖选项可能导致模型做出次优决策。目前，该研究主要聚焦于自对弈场景，但作者指出，类似威胁可能存在于多智能体系统和对抗性环境中。未来的防御方向可能包括：训练时引入动作屏蔽的对抗样本、设计鲁棒的动作空间表示，或采用集成决策机制来降低单一动作被移除的影响。这项成果提醒我们，强化学习系统的安全性不仅需要关注输入扰动，还需考虑动作空间本身的结构脆弱性。

HuggingFace13天前原文

Mirror Descent 类型算法：为带函数约束的变分不等式问题提供最优收敛率

新上线

变分不等式（Variational Inequality）是机器学习理论的重要基石，广泛应用于生成对抗网络、强化学习、对抗训练和生成模型等领域。然而，实际场景中的变分不等式问题往往带有额外的约束条件，传统算法在处理这类约束时效率不高。近日，来自俄罗斯和巴勒斯坦的研究团队在 arXiv 上提交了一篇新论文，提出了多种 Mirror Descent 类型算法，专门用于求解带有函数约束（不等式型约束）的变分不等式问题，并证明了这些算法在最优收敛率上的理论保证。 ### 核心贡献：带约束的变分不等式求解论文提出了一类 **Mirror Descent 类型算法**，其核心思想是在迭代过程中根据函数约束的当前取值，动态地在“有效步”和“非有效步”之间切换。具体来说，当当前点满足约束时执行有效步（productive step），否则执行非有效步（non-productive step）。这种切换机制使得算法可以在满足约束的前提下高效地逼近最优解。研究团队设计了多种步长规则和停止准则，并证明了在**有界单调算子**和**Lipschitz 凸函数约束**条件下，算法能够以最优的收敛率达到预设精度。这意味着算法的收敛速度在理论上达到了该类问题的最优下界，无需额外的假设。 ### 改进策略：节省计算开销针对实际应用中约束数量众多的情况，作者提出了一种改进版本：在有效步中，不仅考虑所有函数约束的整体违反程度，还**只检查第一个违反的约束**，从而避免每次迭代都计算全部约束。这种策略可以显著节省运行时间，特别适合约束数量较大的场景。 ### 扩展应用：对 δ-单调算子的支持论文进一步将算法分析推广到 **δ-单调算子**（δ-monotone operator），这允许算法在无法获得目标函数次梯度精确信息时，仍能应用于约束最小化问题。这种扩展使得算法在次梯度信息有噪声或不可用时仍具有实用性，例如在非光滑优化或在线学习中。 ### 实验验证与行业意义数值实验展示了所提算法在不同问题实例上的表现，验证了其理论收敛性。从行业角度看，这项研究为机器学习中涉及约束的对抗训练、安全强化学习等场景提供了更高效的理论工具。例如，在生成对抗网络的训练中，约束变分不等式可以用于建模生成器和判别器之间的博弈均衡，而本研究的算法能够保证在满足判别器约束的前提下快速收敛。总体而言，该工作是对变分不等式算法理论的重要推进，尤其是针对函数约束的处理机制具有实用价值。未来，这些算法有望被集成到机器学习框架中，用于处理更复杂的约束优化问题。

HuggingFace13天前原文

决策容量的结构阈值：自博弈强化学习崩溃的关键

新上线

一项新研究揭示了自博弈强化学习中的关键阈值：当智能体的决策容量降至零时，系统将不可避免地崩溃。该论文发表于 arXiv，作者通过扑克、矩阵博弈、骰子游戏等多种环境，结合多种学习算法，系统性地证明了这一现象的普遍性。 ## 核心发现研究发现存在一个**结构性阈值**：当消除所有具有正到达概率的决策点时，智能体会迅速收敛到一个确定性利用吸引子——一个接近最大损失的固定点。相反，**只要保留一个正到达概率的决策点**，就能完全防止崩溃。 ## 实验验证研究覆盖了多种博弈类型： - **扑克变体**：如限注德州扑克 - **矩阵博弈**：经典博弈论模型 - **骰子游戏**：概率性决策环境所有场景均使用不同强化学习算法（如 Q-learning、策略梯度等）进行验证，结果一致。 ## 机制与特性崩溃的根源在于**约束下的共同适应**，而非扰动本身。通过对比冻结基线和固定对手控制实验，研究者确认了这一点。其他关键特性包括： - **时序无关**：无论何时施加扰动，效果相同 - **完全可逆**：恢复动作后，系统可回到正常状态 - **函数近似加剧**：使用神经网络等近似方法时，崩溃更严重 ## 理论意义该结果建立了**零到达加权决策容量**的尖锐阈值，且严重程度随容量连续变化。这一发现对多智能体强化学习的稳定性具有重要启示，尤其是在自动驾驶、游戏 AI 和机器人协作等对可靠性要求极高的领域。 ## 行业影响随着自博弈在 AlphaGo、AlphaStar 等系统中的成功应用，理解其失败模式变得至关重要。该研究为设计更鲁棒的训练算法提供了理论基础，例如通过监控决策容量来预警潜在崩溃。 ## 小结这项研究揭示了自博弈强化学习中一个此前未知的结构性相变。决策容量从1到0的微小变化，可导致系统从稳定学习转为灾难性失败。未来工作可探索如何主动维护决策容量，或利用该阈值设计早停策略。

HuggingFace13天前原文