SheepNav

AI 资讯

每日聚合最新人工智能动态

来源:HuggingFace清除筛选 ×

## 研究背景 在结构化输出的语言模型生成中,最大softmax概率(MSP)是评估不确定性量化的默认方法。尽管计算成本低,但MSP往往校准不良。现有方法通过探测模型内部激活,将原始隐藏状态输入不透明分类器,将激活视为静态快照,忽略了表示形成的逐层轨迹。然而,相似的终点可能源于截然不同的路径,证据在各层间如何积累、增强或逆转,可能揭示出最终概率所掩盖的不确定性。 ## 方法创新 该研究提取了**11种尺度不变的几何特征**,追踪每层MLP更新的累积路径,并将其输入**稀疏线性探针**。这些特征具有封闭形式的几何意义,使得探针的系数能够揭示误差在深度上的形成过程——哪些层过早做出决定,哪些层与运行状态矛盾,以及轨迹何时偏离终点。 ## 实验结果 在选择性弃权(selective abstention)场景下,该探针显著优于MSP,性能提升幅度与基线校准误差成正比,**最高可达21个AURC点**。这表明,通过分析语言模型的内部轨迹,可以有效提高不确定性估计的校准度。 ## 行业意义 这项研究为语言模型的可信度评估提供了新视角。传统方法依赖最终输出概率,但忽略了推理过程中的动态变化。通过几何特征揭示的路径信息,不仅能提升不确定性量化精度,还能帮助理解模型何时犯错,为模型调试和安全性应用提供支持。未来,该方法可能集成到更复杂的校准框架中,推动语言模型在医疗、金融等高风险领域的可靠部署。

HuggingFace7天前原文

近日,一篇发表在 arXiv 上的论文提出了一种名为 **ManiF-SMC**(Manifold Forgetting with Self Mode Connectivity)的新型机器反学习方法,旨在更有效地实现“被遗忘权”。机器反学习的目标是从已训练好的模型中删除特定数据的影响,但现有方法往往效果有限,且可能破坏原始学习目标。ManiF-SMC 通过将反学习问题重新定义为在表示空间中推动被遗忘样本远离其原始流形中心,并利用自模式连通性自适应生成边界,实现了与重训练等效的反学习效果。 ## 核心问题:现有反学习方法的局限 当前大多数反学习方法依赖于标签操作或任务梯度反转,但这些方式存在明显缺陷: - **反学习效果有限**:难以彻底消除目标数据的影响。 - **破坏原有模型性能**:可能损害模型在剩余数据上的表现。 - **不等价于重训练**:无法保证与从头训练(在移除数据后)的模型行为一致。 ## ManiF-SMC 的创新思路 研究团队观察到,在剩余数据上重训练的模型倾向于根据语义相似性对已删除样本进行分类。基于此,他们提出将近似反学习重新定义为:**将每个被遗忘样本从其原始学习的流形表示中心,推向保留数据中与其最相似的语义邻居**。这一操作完全在表示空间中进行,减少了对标签和任务特定梯度的依赖。 具体而言,ManiF-SMC 采用**基于边界的三元组损失**来同时实现反学习和表示保留目标。然而,为每个反学习案例找到合适的边界极具挑战。为此,论文引入**自模式连通性模块**,能够快速重建局部流形,从而为每个反学习案例生成自适应的边界。 ## 实验验证与性能 在四个代表性数据集上的大量实验表明,ManiF-SMC 在仅操作模型表示空间的情况下,**反学习效果可与最先进的近似方法相媲美**,同时保持了对原始任务的性能。该方法为机器反学习提供了一条不依赖标签和梯度反转的新路径,具有重要的理论与应用价值。 ## 意义与展望 随着数据隐私法规(如 GDPR)的推行,机器反学习成为保障用户“被遗忘权”的关键技术。ManiF-SMC 的提出不仅提升了反学习的有效性,还通过纯表示空间操作降低了实现门槛。未来,该方法有望应用于联邦学习、推荐系统等需要动态删除用户数据的场景。

HuggingFace7天前原文

arXiv:2605.22872v1 Announce Type: new Abstract: Experienced physicians develop diagnostic expertise through clinical practice, acquiring not only disease knowledge but also the ability to differentiate confusable conditions. Current medical vision-language models (VLMs) lack this capability -- their parameters encode static knowledge that does not evolve across diagnostic encounters. We propose MedExpMem, an experience memory framework enabling VLM-based diagnostic agents to accumulate different

HuggingFace7天前原文

## 研究背景:文本通信的瓶颈 当前 LLM 智能体之间的通信依赖于文本,这一过程涉及将发送方模型的状态进行自回归解码,再由接收方模型重新编码,导致显著的延迟和信息损失。为突破这一瓶颈,**Cache-to-Cache (C2C)** 等方法尝试直接交换 KV 缓存,通过学习适配器将发送方的键值矩阵映射到接收方。然而,C2C 的适配器体积庞大、训练成本高昂,且只能逐 token 翻译,要求双方上下文完全一致,这在实际智能体通信中几乎无法满足。 ## LCF 方法:高效压缩与异构上下文处理 针对上述问题,研究者提出了 **Latent Cache Flow (LCF)**。其核心创新在于两点: - **联合压缩翻译**:LCF 将键(Keys)和值(Values)进行联合翻译与压缩,使得适配器规模仅为 C2C 的 **4%**(约 13 MB vs 956 MB),大幅降低了存储和训练开销。 - **上下文差异处理**:LCF 适配器并非翻译整个缓存,而是仅传输目标模型尚未拥有的“新信息摘要”,从而有效应对双方上下文不同的场景。 ## 实验表现:精度与速度双提升 在共享上下文设置下,**13 MB 的 LCF 适配器** 的准确率超过了 **956 MB 的 C2C 适配器**;而在上下文不同的场景中,LCF 相比传统文本通信方式,准确率提升 **23%**,速度提升 **8.5 倍**。 ## 意义与展望 LCF 提出了一种轻量级、高效的模型间直接通信方案,有望替代冗长的文本交互,为多智能体协作、分布式推理等场景提供新的技术路径。不过,目前该研究仍处于早期阶段,更大规模模型和更复杂任务上的表现有待进一步验证。

HuggingFace7天前原文

## 微调新范式:FuRA 如何用全秩更新兼顾效率与性能? 在大型预训练模型(如 LLM 和 VLM)的微调中,全参数微调(Full FT)和参数高效微调方法(如 LoRA)各有利弊。Full FT 虽能保留完整更新空间,但容易因微调数据中的噪声破坏预训练学到的稳健特征;LoRA 等低秩方法虽然参数高效,却限制了模型的表达能力。 最新研究 **FuRA(Full-Rank Adaptation)** 试图打破这一困局。其核心洞察在于:**谱预条件(Spectral Preconditioning)** 是此前被忽视的关键。具体而言,FuRA 通过对每个权重矩阵进行全秩奇异值分解(SVD),冻结其中一个奇异基向量,从而将更新约束在预训练列空间内,实现了在相同可训练参数数量下优于无约束 Full FT 的优化方案。 ### 技术细节:块张量列车分解与全秩更新 FuRA 的架构基于一种高效的**块张量列车分解**: $$W = L S R$$ 其中,大型核心矩阵 $L$ 被固定为预训练的块状 SVD 基,而仅优化紧凑核心 $R$ 和块状奇异值 $S$。这种设计同时带来了三大优势: 1. **全秩谱预条件**:通过冻结 $L$ 保留预训练空间的谱结构,避免噪声干扰。 2. **全秩更新表达能力**:$R$ 和 $S$ 的组合仍能实现全秩更新,不损失模型容量。 3. **参数与计算效率**:参数量、内存占用和每步训练时间均与 LoRA 相当,具有实际部署可行性。 ### 实验表现:全面超越 Full FT 与 LoRA 研究者在多个场景中验证了 FuRA 的有效性: - **LLM 微调**:在 **LLaMA-3-8B** 模型的常识推理任务上,FuRA 比 Full FT 平均提升 **+1.37** 个点。 - **数学推理强化学习**:在基于强化学习的数学推理微调中,FuRA 同样表现更优。 - **视觉指令微调**:针对 VLM(视觉语言模型)的视觉指令微调,FuRA 也取得了更好的结果。 此外,FuRA 的 4-bit 量化版本 **QFuRA** 也超越了 QLoRA 的性能,表明该方法在低精度场景下同样有效。 ### 行业意义:效率与性能的平衡点 当前 AI 模型微调领域,Full FT 因计算成本高、易过拟合而逐渐被 LoRA 等 PEFT 方法取代,但 LoRA 的低秩假设在某些任务上存在性能瓶颈。FuRA 提供了一种新的折中方案:**通过巧妙的参数化设计,在保持与 LoRA 相当的效率的同时,实现了全秩更新的表达能力,甚至超越了 Full FT 的性能**。 对于需要部署大规模模型的企业和研究者而言,FuRA 具有重要参考价值。它不仅适用于 LLM,还扩展到 VLM 等更复杂的多模态模型。代码已开源,感兴趣的读者可以进一步探索。

HuggingFace7天前原文

## 核心发现:推理不是任务属性,而是动态解码状态 Chain-of-Thought(CoT)推理已成为提升大语言模型(LLM)能力的默认策略,但其有效性并非普适。最新研究揭示了一个矛盾现象:在事实性问答或开放式生成任务中,CoT不仅收益甚微,甚至可能拖累性能,同时显著增加token消耗。针对这一“推理悖论”,来自北京大学的魏晓、王浩庆、邓志鸿和唐烨辉等研究者提出了一种全新视角——将LLM推理视为一种**动态解码状态**,而非任务或模型的固有属性。 ## 熵动力学:预测推理收益的信号 研究团队通过系统分析发现,**解码早期的熵变化轨迹**是判断当前任务是否适合CoT的关键信号。具体而言,那些能从CoT中受益的任务,其熵值在解码初期呈现**持续下降**趋势;反之,若熵值不稳定或上升,则CoT往往无效甚至有害。这一现象可类比为**相变**:从高熵的“探索”状态切换到低熵的“结构化推理”状态。 ## EDRM框架:轻量级、免训练的路由机制 基于上述洞察,研究者提出了**EDRM(Entropy Dynamics-based Reasoning Manifold)**,一种无需额外训练的路由框架。EDRM通过将早期解码的熵轨迹嵌入到一个紧凑、可解释的流形表示中,实现零样本部署和细粒度的实例级自适应推理策略选择。 ## 实验结果:效率与精度双赢 在**15个基准测试**和**4种不同规模与架构的LLM**上,EDRM均优于静态基线方法。在数据集级别,仅需**50个校准样本**,EDRM即可实现**41%–55%的token缩减**,同时提升准确率;在实例级别,它能在保持**27%–45% token节省**的前提下,将准确率进一步提升**最高4.7%**。 ## 行业启示:选择性推理优于默认推理 这项研究不仅提供了实用的推理路由工具,更从根本上挑战了“CoT对所有任务都有益”的默认假设。它提示我们,在LLM推理中引入**动态控制机制**,根据任务特性按需调用推理能力,是提升效率与效果的关键方向。对于AI工程化部署而言,EDRM的轻量级特性(无需训练、低样本需求)使其具有极高的实用价值。

HuggingFace7天前原文

随着自主系统和智能工业部署日益将计算分散到近传感器、边缘和云资源之间,能源、延迟和可靠性的严苛预算要求系统具备运行时自适应性。然而,当多模态传感器套件(摄像头、LiDAR/深度等)在边缘端激增时,多数现有方法要么在强大服务器上融合模态,要么应用忽略跨模态依赖的单模态近传感器过滤,导致冗余传输或事件遗漏。为此,研究者提出了 **FusionSense**——一种面向能源受限自主边缘系统的融合感知智能传感框架。 ## 核心方法:三阶段训练 FusionSense 通过一个三步流程训练轻量级近传感器分类器: 1. **服务器端融合模型学习下游任务**:首先在服务器上训练一个融合模型,充分捕捉多模态数据的联合特征。 2. **生成“过滤安全”标签**:量化每个模态相对于融合决策的必要性,确定哪些模态在特定场景下可以安全过滤。 3. **压缩边缘端融合模型**:将近传感器预测作为辅助信号注入,实现模型轻量化。 最终得到一个运行时决策层,能够协同减少计算和通信开销,且计算量随传感器数量线性增长。 ## 性能表现:能效与质量双赢 在基于 SynDrone 数据集的 **RGB+深度/LiDAR** 双模态实验中,FusionSense 展现出显著优势: - 在 **1% 兴趣帧(FoI)出现率** 下,能耗降低 **33 倍**; - 在 **10% FoI 出现率** 下,能耗降低 **11 倍**; - 在固定 **30% 数据缩减率** 下,质量损失减少 **92.3%**; - 能效提升比最佳过滤基线高出约 **1.5 倍**。 ## 行业意义与展望 FusionSense 解决了边缘多模态智能中一个关键痛点:如何在有限资源下实现高效融合。其创新在于将融合意识提前到近传感器阶段,避免了传统“先传输后融合”的冗余。该工作已被 **ISLPED 2026** 接收,为自主无人机、工业物联网等场景提供了实用的能效优化方案。未来,随着传感器数量增加,这种线性扩展的方法将更具吸引力。

HuggingFace7天前原文

思维链(Chain-of-Thought,CoT)提示被广泛认为能提升小语言模型的算术推理能力,但最新研究揭示了一个令人意外的现象:**模型在读取答案时,主要依赖的是“位置复制”捷径,而非真正的逻辑推理**。来自 arXiv 的论文《The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models》通过精细实验,揭开了这一机制的面纱。 ## 关键发现:位置胜过逻辑 研究者对三个 1B-3B 参数规模的指令微调模型(在 GSM8K 数据集上)进行了测试。他们采用前缀补全任务,将答案读取阶段与中间推理步骤分离。结果发现:**模型在回答算术问题时,倾向于直接复制位于答案分隔符之前的最后一个数字**,无论这个数字是否来自正确的推理过程。 具体数据令人震惊: - **正确数字的存在** 贡献了 54-92 个百分点的准确率(占模型教师强制上限的 89-92%)。 - 即使在错误推理步骤中,最终答案与 CoT 最后数字匹配的概率高达 **95-96%**。 ## 复制机制压倒上下文理解 进一步实验表明,这一复制通道的优先级远高于基于上下文的推理补全。当研究者将 CoT 中的最后一个数字替换为错误值时,模型准确率骤降至接近零——即使中间推理步骤完全正确。相反,如果移除该数字,准确率反而能回升 5-32 个百分点。更值得注意的是,**即使是模型本身能够完成的单步算术,在存在可复制数字时也会被抑制**。 ## 模型间的差异与共性 不同模型表现出细微差异: - **Qwen 和 Llama** 几乎无条件复制干扰数字(87-95% 的情况)。 - **Gemma** 则表现出一定的选择性门控机制。 通过头部消融实验,研究者发现这一捷径与特定架构的注意力头集合相关,并且该效应在 GSM-Symbolic 数据集上得到复现。 ## 对非算术任务及更大模型的影响 有趣的是,在非算术的 Big-Bench Hard(BBH)任务上,CoT 步骤打乱后的性能下降明显——说明位置复制主要针对算术场景。而在 7B-8B 参数规模的模型中,内容选择性门控机制开始出现,表明**模型规模增大后可能逐步摆脱这种捷径**。 ## 对 CoT 监督的警示 这一发现对基于 CoT 的模型监督和安全性评估提出了严峻挑战:**步骤级别的忠实度评估可能将位置驱动的答案传输误认为真正的计算过程**。这意味着,当前许多依赖 CoT 可解释性的方法可能高估了模型的内在推理能力。 ## 总结与展望 该研究揭示了小语言模型在算术推理中的一种“偷懒”策略:与其进行复杂的逻辑推导,不如直接复制位置合适的数字。这不仅解释了为什么打乱 CoT 步骤对性能影响较小,也提醒研究者需要重新审视 CoT 提示的真正作用机制。未来,如何设计训练方法和评估指标来抑制这种捷径,将是提升模型推理真实性的关键方向。

HuggingFace7天前原文

## 研究速览 来自 NICE Actimize 的研究团队提出了一种名为 **Temporal Contrastive Transformer (TCT)** 的表示学习框架,旨在通过自监督对比学习捕获金融交易序列中的时序动态模式,从而为下游欺诈检测任务生成有效的嵌入表示。 ## 核心方法 TCT 的核心设计基于 Transformer 架构,并引入了**预测性对比编码**(Predictive Contrastive Coding)作为训练目标。模型通过自监督方式学习,无需标注数据即可从原始交易序列中提取行为模式。具体来说,TCT 将一段时间窗口内的交易序列编码为嵌入向量,这些嵌入向量能够反映用户行为在时间维度上的变化规律。 ## 关键实验结果 在真实场景下的评估中,研究团队将 TCT 生成的嵌入作为梯度提升分类器的输入特征,并与传统基于领域知识的特征工程基线进行了对比: - **仅使用 TCT 嵌入**:分类器 AUC 达到 **0.8644**,说明模型成功捕获了有意义的时序结构。 - **结合领域工程特征**:AUC 为 **0.9205**,而基线(仅工程特征)为 **0.9245**,二者差异极小,表明 TCT 嵌入与现有抽象特征存在较大重叠,未能带来显著增量收益。 ## 行业启示与挑战 这一结果揭示了当前时序表示学习在金融犯罪检测领域的一个关键矛盾:**自监督嵌入虽然能逼近强特征工程的效果,但尚难实现“叠加式”提升**。对于金融机构而言,这意味着 TCT 有潜力减少对繁重人工特征工程的依赖,但距离直接部署于生产环境仍有距离。 研究团队指出,TCT 目前属于“中间阶段”成果,后续优化方向包括改进模型架构、探索更有效的训练目标以及设计更优的集成策略。值得注意的是,在强基线基础上取得 **AUC 0.9205 与 0.9245 的对等表现**,本身已证明自监督方法能够学习到与专家设计特征同等质量的表示,这为降低特征工程成本提供了可行路径。 ## 小结 Temporal Contrastive Transformer 是自监督学习在金融反欺诈领域的一次有益尝试。它展示了 Transformer + 对比学习在时序建模中的潜力,同时也提醒业界:当已有强大的特征工程时,新方法需要找到独特的“互补价值”而非简单替代。未来,如何让模型捕获工程特征遗漏的异常信号,将是研究突破的关键。

HuggingFace10天前原文

随着语言模型在自动化假设生成和实验实施方面加速科学研究,一个**新的瓶颈**浮出水面:如何在不进行详尽实验的情况下,评估和筛选数百个AI生成的研究想法?来自最新研究(arXiv:2605.21491)的团队提出,能否让语言模型学会**预测研究想法的实证成功**,即在运行任何实验之前判断哪个想法更可能取得更好性能? 该研究聚焦于**比较性实证预测**任务:给定一个基准测试的研究目标和两个候选想法,模型需要预测哪个想法能取得更优的基准性能。为此,研究团队构建了一个包含 **11,488 个想法对** 的数据集,这些想法对的结果基于 PapersWithCode 的客观实证结果。 实验结果令人瞩目:未经微调的 8B 参数模型仅达到 **30% 的准确率**,而通过监督微调(SFT),准确率飙升至 **77.1%**,甚至超越了 GPT-5 的 61.1%。更值得一提的是,研究团队将评估任务建模为推理任务,并采用**带可验证奖励的强化学习(RLVR)**训练模型,使模型学会发现潜在的推理路径,在保持可解释性的同时达到 **71.35% 的准确率**。 通过消融实验和分布外测试,研究证明了模型对表面启发式特征的鲁棒性,并成功迁移到跨领域时间分割测试集和独立构建的测试集上。这些结果表明,**计算高效的小型语言模型**可以作为有效、客观的验证器,为自主科学发现提供可扩展的路径。 该研究已入选 **ACL 2026 Findings**,为AI驱动的科研自动化开辟了新方向——从“生成想法”迈向“智能筛选想法”,有望显著加速科学研究的迭代周期。

HuggingFace10天前原文

## 引言 特征重要性排序是解释机器学习模型的核心手段之一,广泛应用于模型诊断、特征工程乃至公平性审计。然而,一篇来自 arXiv 的新论文《The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity》揭示了在特征存在共线性时,任何单一特征排序都无法同时满足**忠实性(faithful)**、**稳定性(stable)**和**完备性(complete)**三个基本属性。该研究不仅从理论上证明了这一不可能性,还通过形式化验证(Lean 4 定理证明器)提供了机械验证,并对实际影响给出了量化分析。 ## 核心发现:不可能三角 论文指出,当特征存在共线性时,特征排序面临一个根本性的困境: - **忠实性**:排序必须准确反映特征对模型输出的真实贡献。 - **稳定性**:在数据微小扰动下,排序结果不应剧烈变化。 - **完备性**:排序应覆盖所有特征,不遗漏任何信息。 作者证明,这三个属性无法同时满足。具体来说,对于共线性较强的特征对,排序结果近乎随机——就像抛硬币一样不可靠。 ## 设计空间二分法 论文进一步刻画了归因方法的完整设计空间:存在且仅存在两类方法族: 1. **忠实-完备方法**:这类方法(如原始 SHAP)能忠实反映贡献并覆盖所有特征,但**不稳定**——在共线性下,排序结果有高达 50% 的概率发生翻转。 2. **集成方法(如 DASH)**:这类方法通过集成平均实现稳定,但对对称特征会报告“平局”(tie),而非给出确定性排序。 论文提出的 **DASH(Diversified Aggregation of SHAP)** 方法被证明在无偏聚合中达到了帕累托最优,其方差达到了 Cramér-Rao 下界,且集成规模有严格公式。 ## 量化分析与实证证据 不同模型类别的共线性影响程度各异: - **梯度提升模型**:归因比率随 1/(1-ρ²) 发散,ρ 为特征间相关系数。 - **Lasso 回归**:归因比率趋于无穷,即完全不可靠。 - **随机森林**:归因比率收敛,相对稳健。 在 77 个公开数据集的调查中,**68% 的数据集**表现出归因不稳定性。这意味着大多数实际应用场景中,依赖单一特征排序可能产生误导。 ## 对公平性审计的冲击 论文特别指出,基于 SHAP 的代理歧视审计(proxy discrimination audit)在共线性下**不可靠**。当特征存在相关性时,SHAP 值无法区分直接贡献与间接关联,可能导致错误的公平性结论。作者建议审计实践应转向更稳健的方法,或采用 DASH 等集成方案。 ## 形式化验证与实用工具 该研究的一大亮点是使用了 **Lean 4 定理证明器**对核心定理进行了机械验证——共 305 个定理,从 16 条公理推导,无任何未完成证明(0 sorry)。据作者称,这是可解释 AI 领域首个经过形式化验证的不可能定理。 此外,论文还提供了实用诊断工具:一套 Z 检验工作流和单模型筛查工具,帮助从业者快速检测数据中是否存在严重的归因不稳定问题。 ## 结论与启示 这项研究为可解释 AI 领域敲响了警钟:特征排序并非万能,尤其在特征高度相关的场景中。模型解释需要超越“单一排名”思维,转向更丰富的归因表示(如置信区间、平局报告或集成方案)。对于高 stakes 应用(如医疗、金融、司法),忽视这一不可能性可能导致严重的决策失误。 DASH 方法提供了一条务实路径:通过集成平均换取稳定性,同时用平局处理避免虚假的确定性。未来,或许我们需要重新定义“解释”的目标——不是给出一个绝对排名,而是提供关于贡献的分布信息。

HuggingFace10天前原文

## 背景:静态测试无法捕捉急诊关键失败模式 前沿语言模型正以前所未有的速度被部署到临床工作流中,但安全评估基础设施严重滞后。传统的医学问答基准(如MedQA)仅评估单轮回答正确率,完全无法捕捉急诊医学中的关键失败模式——**轨迹级安全崩溃**、**工具滥用**以及**在持续临床压力下的妥协行为**。 ## HealthCraft:首个面向急诊医学的RL安全环境 **HealthCraft** 是首个公开的、专为急诊医学设计的强化学习安全环境,基于 Corecraft 框架改造。它构建在 **FHIR R4 世界状态**之上,包含 **14 种实体类型**和 **3,987 个种子实体**,并公开 **24 个 MCP 工具**。环境采用**双层奖励机制**:一旦任何安全关键标准被违反,立即将奖励归零,从而强制模型学习轨迹级安全行为。 HealthCraft 发布了 **195 个任务**(横跨六大类别),针对 **2,255 个二元评价标准**(其中 515 个为安全关键标准)进行评分。后续补充的 10 个负类任务将总任务数扩展至 **205 个**,评价标准增加至 **2,337 个**。 ## 前沿模型表现:多步流程接近零分 研究团队在两个前沿模型上进行了测试,结果令人震惊: - **Claude Opus 4.6**:Pass@1 为 **24.8%** [21.5-28.4],安全失败率 **27.5%** - **GPT-5.4**:Pass@1 仅为 **12.6%** [10.2-15.6],安全失败率高达 **34.0%** 更值得警惕的是,在**多步工作流**(最接近真实急诊护理的代理)中,两个模型的表现均**接近零**——Claude 为 1.0%,GPT-5.4 为 0.0%,尽管它们在单个步骤上表现出部分能力。这说明模型缺乏连贯的轨迹级安全推理能力。 ## 基础设施保真度:影响评估结果 研究还发现,基础设施的 bug 修复会显著改变模型排名。从 v2 到 v8 版本之间共修复了 **6 个基础设施 bug**,这些修复甚至**重新排序了哪个模型更强**——这表明**基础设施保真度本身就是测量的一部分**。 ## 评估与训练:奖励信号的陷阱 HealthCraft 使用**确定性 LLM 评委**覆盖层来降低评估噪声,并进行了 60 次负类烟雾测试。结果显示,奖励信号并非“拿来就能训练安全”——例如,约束标准通过率高达 0.929,这种可被评估框架容忍的“可游戏性”,在训练奖励中却完全不可接受。 ## 未来与开源 研究团队已搭建了与 **Megatron + SGLang + GRPO** 训练循环的耦合接口(详见 Corecraft 第 5.2 节),但将训练奖励消融实验留作未来工作。HealthCraft 的环境、任务、评价标准和评估框架已在 **Apache 2.0 协议**下开源。 > **小结**:HealthCraft 揭示了当前前沿语言模型在急诊医学场景中的严重安全缺陷。它不仅是评估工具,更是一个警示:在安全基础设施跟上之前,盲目部署可能带来灾难性后果。

HuggingFace10天前原文

随着大语言模型(LLM)向智能体(Agent)方向发展,如何让模型在长时间执行任务时保持稳定高效,成为业界关注的核心问题。一篇来自 arXiv 的新论文提出了一个有趣的观点:用于引导 Agent 执行的“缰绳”(Harness)并非越精细越好,过度分解或过度引导反而可能降低任务成功率。 ## 什么是“缰绳”设计? 论文将“缰绳”定义为一种推理时(inference-time)的对齐技术,它通过**任务分解**和**引导执行**两个核心机制来提升 LLM Agent 的长期表现。任务分解将复杂目标拆解为若干子目标,引导执行则是在每一步调整模型的行动分布,使其更倾向于正确的方向。 ## 关键发现:更精细≠更有效 研究团队通过理论分析和实验验证,揭示了“缰绳”设计中的几个关键失败模式: - **过度分解(over-decomposition)**:将任务拆解得过细,反而增加了执行路径的复杂度,让 Agent 在细枝末节上迷失方向。 - **过度修剪(over-pruning)**:过于严格的引导可能会提前剪掉一些虽然看似偏离、但实际有效的探索路径。 - **幻觉执行(hallucinated execution)**:Agent 在引导下“假装”执行了某个子任务,但实际上并未完成,导致后续步骤建立在虚假前提上。 ## 部分引导反而更优 更令人意外的是,论文指出**有效的“缰绳”可以是部分的**:只需指定初始的几步执行计划,后续让 Agent 自由发挥,反而比完整、结构化的工作流获得更高的通过率。这提示我们,在 Agent 设计中需要权衡控制与自主,给予模型适当的自由空间。 ## 行业启示 这一研究对于当前 LLM Agent 的工程实践具有重要意义。许多团队在构建 Agent 系统时,倾向于设计详尽的工作流和严格的步骤约束,但本研究表明,过度设计可能适得其反。未来的 Agent 系统或许应当采用**自适应缰绳**策略:根据任务复杂度和 Agent 的实时表现,动态调整引导的粒度。 论文通过合成实验和真实的终端 Agent 基准测试验证了上述理论预测,为推理时对齐提供了新的理论框架和实践指导。对于开发者而言,这无疑是一个值得关注的信号:在 Agent 设计中,少即是多。

HuggingFace10天前原文

## 研究背景 过参数化模型近年来在机器学习领域表现抢眼,它们尽管参数数量远超样本数,却依然能实现出色的泛化性能。这一现象与经典统计理论中过拟合的预期相悖,促使研究者提出了“**双下降**”理论:随着模型复杂度增加,测试误差先下降后上升,随后在过参数化区域再次下降。然而,现有双下降研究大多假设数据干净,真实场景中的数据常存在异常值或污染。 ## 研究内容 Tino Werner 在 arXiv 预印本《Double descent for least-squares interpolation on contaminated data: A simulation study》中,通过模拟实验探索了线性回归中最小二乘插值在污染训练数据上的双下降现象。研究将高度非鲁棒的最小二乘插值估计器与多种稳健估计器进行对比,考察过参数化是否能缓解污染带来的影响。 ## 核心发现 实验结果表明:**在污染数据上,最小二乘插值同样表现出双下降行为**。当模型极度过参数化时,其泛化误差显著降低,甚至超越稳健估计器的表现。这意味着,尽管最小二乘对异常值极为敏感,但在过参数化区域,模型对污染的“记忆”反而转化为优势,插值逼近的灵活性使得模型能够忽略异常值的影响。 ## 理论意义 该研究将双下降现象从干净数据扩展至污染数据场景,为理解过参数化模型的鲁棒性提供了新视角。传统稳健统计强调通过设计估计器来抵抗异常值,而本工作表明,**过参数化本身可能就是一种隐式的鲁棒机制**。这一发现对实际应用具有指导意义:当数据质量难以保证时,使用大模型或许比精心设计鲁棒算法更有效。 ## 局限与展望 目前研究仅基于线性回归和模拟数据,真实场景的复杂非线性模型、不同污染类型(如标签噪声、特征噪声)仍需进一步验证。此外,双下降的临界点如何受污染程度影响,以及理论上的条件边界,都有待深入探索。

HuggingFace10天前原文

## 研究背景 大语言模型(LLM)提示在自然语言任务中广泛应用,但其可靠性存疑:一个程序可能在少量测试用例上表现良好,部署时却频频失败。如何提前预测程序在未见任务上的真实性能?近日,arXiv上的一篇论文(arXiv:2605.21515)提出了一种基于贝叶斯推断的解决方案,并揭示了符号程序(如Python)与提示程序在性能分布上的根本差异。 ## 核心方法:硬币翻转模型 研究团队采用了一个简单的**硬币翻转模型**:将每次程序执行(通过或失败)视为一个伯努利随机变量,其成功概率即为程序的未知性能。预测性能的关键在于两点: 1. 在给定测试用例上的观察结果; 2. 性能的先验分布。 通过从大量程序和任务中编译经验性性能先验,他们发现了一个惊人的差异: - **符号程序(如Python)** 的性能呈现“全有或全无”的分布——要么完全正确,要么完全错误。 - **提示程序** 则具有弥散的先验分布,存在大量“几乎正确”的程序。 这一差异直接解释了为何少数几个通过测试用例就能**认证符号程序的可靠性**,但对提示程序却几乎无效。 ## 创新点:RAP框架 基于上述洞察,作者提出了 **RAP(Retrieved Approximate Prior)** 方法。其核心思想是:当面对一个新程序时,从已有语料库中检索相似任务和提示程序,构建一个近似先验,然后用这个先验来预测性能。实验表明,RAP取得了稳健的预测效果。 ## 意义与展望 该研究为LLM应用的可靠性评估提供了理论工具。对于开发者而言,这意味着: - 在部署符号程序时,少量测试即可建立较高置信度; - 对于提示程序,则需要更全面的测试策略,因为“几乎正确”的程序往往隐藏着失败风险。 未来,RAP框架有望被集成到开发流程中,帮助工程师在发布前更准确地预估程序在实际场景中的表现。

HuggingFace10天前原文

## 核心发现:特征紧凑不等于不确定性感知好 近日,一篇题为《Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins》的论文引发关注。该研究揭示了一个反直觉的现象:**CenterLoss**——一种常用于提升分类准确率的特征紧凑正则化方法——**会显著损害模型对分布外(OOD)输入的检测能力**。 ## GOEN 方法:几何优化的不确定性网络 研究者提出了 **GOEN(Geometry-Optimised Epistemic Network)**,一个简洁的流水线,融合了多尺度特征提取、L2 归一化、马氏距离(Mahalanobis distance)以及一个用真实困难 OOD 样本训练的校准头。该方法旨在直接优化特征几何结构,使其更适合不确定性估计。 ## 关键实验与对比 在 CIFAR-10 基准测试上,GOEN 的最佳变体 **GOEN-NoCenterLoss** 取得了 **平均 OOD AUROC 0.9483**,全面超越了深度集成(0.8827)、KNN(0.8967)和 ODIN(0.8870)等基线方法,同时保持了有竞争力的分布内(ID)准确率。 而引入 CenterLoss 后,尽管分类准确率略有提升,但 OOD AUROC 从 0.9483 下降至 0.9366,验证了其负面作用。 ## 为何 CenterLoss 有害? 论文指出,CenterLoss 强制拉近同类特征,导致特征簇过度紧凑。这种坍缩会压缩类别间的边际,并扭曲协方差结构——而协方差矩阵正是马氏距离计算中衡量特征相关性的关键。过度紧凑的特征空间使得 OOD 样本与 ID 样本难以区分,因为所有特征都挤在了一起。 ## 行业启示与效率优势 这一发现挑战了“更好的分类几何必然带来更好的认知不确定性”的普遍假设。对于 AI 安全部署而言,OOD 检测能力与分类准确率之间存在根本性的权衡。GOEN 的训练十分高效,**单 GPU 上不到 20 分钟**即可完成,为构建能可靠识别自身局限的 AI 系统提供了实用蓝图。 ## 小结 GOEN 通过放弃 CenterLoss 并采用多尺度马氏距离,实现了当前最优的 OOD 检测性能。这项研究提醒我们:在追求分类精度的同时,不应忽视特征空间的全局几何,否则可能“赢了分类,输了安全”。

HuggingFace10天前原文

## 研究背景 在生成式AI领域,**掩码扩散模型(Masked Diffusion Models, MDMs)** 正逐渐成为离散序列建模的重要工具,尤其在蛋白质序列设计、游戏状态生成等任务中表现突出。然而,这类模型的一个关键短板是:它们能给出每个变量的边际条件分布,却无法显式表达变量之间的依赖关系——比如蛋白质序列中哪些位点会相互影响,或者数独谜题中哪些格子存在约束。 这种“知其然不知其所以然”的限制,不仅让模型的可解释性大打折扣,也直接影响了生成效率。传统的顺序解码方式每次只生成一个变量,无法利用变量间的条件独立性进行并行加速。 ## 核心方法 来自研究团队(Jai Sharma, Yifan Wang, Bryan Li)提出了一种**神经框架**,能够直接从预训练MDM的隐藏状态中估计成对条件互信息(Mutual Information, MI)。关键创新在于:他们利用模型自身条件分布计算出的**真实互信息**作为监督信号,训练一个轻量级神经网络来预测完整的MI矩阵。 这个估计器只需一次前向传播,就能输出所有变量对之间的依赖强度,相当于给模型装上了一面“透视镜”,让它看清内部变量关系的全貌。 ## 实验验证 研究在**数独(Sudoku)** 和**蛋白质序列生成(ESM-C模型)** 两个任务上进行了评估。 - **数独任务**:MI地图准确恢复了数独规则中的行列约束,例如同一行/列/宫内的格子间互信息显著高于无关格子。 - **蛋白质任务**:MI地图揭示了蛋白质结构中的接触残基对,与已知的物理约束高度一致。 更关键的是,基于MI估计的**并行解码策略**,将推理时的前向传播次数减少了 **3-5倍**,同时生成质量与顺序解码相当,并优于基于熵的并行化方法。 ## 行业意义 这项研究为离散序列模型的**可解释性**和**推理加速**提供了新思路。在蛋白质设计等计算密集型场景中,3-5倍的加速意味着原本需要数天的计算可能缩短到一天以内。此外,MI估计框架不依赖外部知识,完全从模型内部学习,因此可以泛化到各种MDM架构。 ## 局限与展望 目前方法聚焦于成对互信息,尚未扩展到高阶依赖。未来工作可能包括: - 将MI估计整合到训练阶段,实现端到端优化 - 探索更复杂的变量分组策略,进一步提升并行度 该论文已提交至**ICML 2026**,代码和模型预计后续开源。

HuggingFace11天前原文

药物推荐是临床AI的核心难题之一。电子健康记录(EHR)中的患者轨迹往往冗长、充满噪声且临床异质性高,现有方法要么擅长跨就诊时序建模,要么擅长整合药理知识(如药物相互作用DDI),但鲜有两者兼顾且能稳健抑制噪声的解决方案。近日,来自日本的研究团队提出了 **GraphDiffMed**,一个知识约束下的药物推荐框架,核心创新在于引入了**双尺度差分注意力机制**,在就诊内和就诊间两个层面过滤虚假信号,同时将药理约束融入学习过程。 ## 技术亮点:差分注意力 + 药理先验 GraphDiffMed 基于 **Differential Attention v2** 构建。传统注意力机制容易在长序列中放大噪声,而差分注意力通过计算两个注意力分布的差异,有效识别并抑制与临床决策无关的干扰信息。具体而言,模型分别在单个就诊内的用药组合(intra-visit)和跨就诊的长期历史(inter-visit)上应用差分注意力,从而在时间维度和用药组合维度上实现双重降噪。 与此同时,模型引入了**药理图先验**,将药物-药物相互作用(DDI)等知识以图结构的形式嵌入到推荐过程中。这种做法不同于以往仅在损失函数中惩罚DDI的“事后修正”策略,而是让药理知识直接参与特征学习,使得推荐结果在疗效和安全性之间取得更优平衡。 ## 实验表现:安全性与有效性双提升 研究团队在 **MIMIC-III** 数据集上进行了全面评估。实验结果显示,GraphDiffMed 在推荐质量(如Jaccard相似度、F1分数)和排序指标(如NDCG)上均显著优于多个强基线模型,包括基于RNN、Transformer以及结合图神经网络的方法。特别值得注意的是,在DDI率这一安全指标上,GraphDiffMed 实现了更低的药物冲突概率,表明其能够在保持高疗效的同时降低不良反应风险。 消融实验进一步揭示了关键发现:**仅使用人口统计学辅助特征时,模型性能达到最佳**。这意味着GraphDiffMed 能够从最简单的输入中提取足够有效的信号,而无需依赖复杂的临床特征工程,降低了实际部署的门槛。 ## 行业启示与开源贡献 当前,临床AI系统面临的最大挑战之一是“噪声-知识”两难:时序模型容易受数据噪声干扰,而知识驱动模型又缺乏对动态变化捕捉能力。GraphDiffMed 提供了一条可行的融合路径——通过差分注意力机制从数据中自动过滤噪声,再通过药理图先验注入领域知识,两者协同工作。 该工作已在 arXiv 上公开,代码也已开源(见论文链接),为后续研究提供了可复现的基准。未来,这一框架有望扩展到更广泛的临床决策支持场景,例如合并症患者的治疗方案优化,或结合基因组学数据的个性化用药。 对于关注医疗AI落地的从业者而言,GraphDiffMed 的思路值得借鉴:与其追求更复杂的模型,不如在注意力机制上做减法,在知识融合上做加法。

HuggingFace11天前原文

## 概览 Prior-Data Fitted Networks(PFN)在表格数据任务中表现出色,但传统 PFN 仅支持单任务推理——要预测多个目标变量,必须重复执行前向传播,且无法在任务间共享信息。近期,来自麦吉尔大学的研究团队提出了 **TabPFN-MT**,这是一种**原生支持多任务的上下文学习器**,通过扩展的多目标合成先验训练,能在一次前向传播中同时预测多个目标,大幅提升计算效率。 ## 核心创新 TabPFN-MT 的架构改进集中在两个关键点: - **扩展的 y 编码器(expanded y-encoder)**:将每个样本的多个目标值编码为统一表示,使模型能同时处理多个标签。 - **共享解码器头(shared decoder head)**:所有任务共享同一个解码器,从而在上下文学习中捕获任务间的依赖关系。 这种设计使得模型在推理时,对于 T 个任务的计算复杂度从传统的 **O(T) 降至 O(1)**,即无论有多少个目标变量,都只需一次前向传播即可完成所有预测。 ## 性能表现 在**344 个数据集**上的广泛评估显示,TabPFN-MT 在中小规模数据集(平均样本数少于 1000)上取得了**深度表格多任务学习的新最优结果**。具体而言: - 在多任务数据集上,其**准确率平均排名为 4.89**,是所有测试模型中的最高平均排名。 - 即使与最新的单任务集成模型相比,TabPFN-MT 依然极具竞争力,尽管多任务联合优化存在固有的计算不对称性。 ## 行业意义 表格数据是金融、医疗、工业等领域最常见的结构化数据形式。传统多任务学习通常需要为每个任务单独训练模型或进行多次推理,成本高昂。TabPFN-MT 通过**上下文学习**替代梯度训练,特别适合样本量有限但任务繁多的场景(如小样本医疗诊断、多目标金融预测)。其 **O(1) 推理成本** 使得在边缘设备或实时系统上部署多任务模型成为可能。 ## 局限与展望 当前模型主要面向中小规模数据集(<1000 样本),在大规模数据上的表现尚待验证。此外,多任务间的负迁移问题——即某些任务相互干扰导致性能下降——在 TabPFN-MT 中如何被缓解,论文未给出深入分析。未来工作可能包括扩展至更大数据集,以及探索更灵活的任务编码方式。 总体而言,TabPFN-MT 为表格多任务学习提供了一个高效、即用的新范式,其 **“一次推理,多任务完成”** 的特性有望在工业界快速落地。

HuggingFace11天前原文

扩散模型在图像、分子等生成任务中表现惊艳,但其训练过程如何在高维数据中高效学习得分函数(score function),从而避开维度灾难,一直是未解之谜。近日,一篇发表于 arXiv 的论文《Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine》给出了理论解释,并提出了一种新的潜在扩散模型架构 **SiLD**(Score-induced Latent Diffusion)。 ## 核心发现:得分函数的几何驱动 研究团队发现,扩散模型训练中存在一种由得分函数几何性质驱动的“坍塌与精炼”机制: - **小噪声阶段**:得分函数在数据流形附近出现发散奇点,迫使去噪映射发生**维度坍塌**,将高维噪声快速投影到低维数据流形上。 - **中等噪声阶段**:训练进一步**精炼**流形上的内在密度分布,完成对数据分布的精确建模。 这一发现从理论上解释了扩散模型为何能通过简单的去噪得分匹配目标,同时完成“流形学习”和“密度估计”两个任务,而无需像 VAE 那样依赖启发式的 KL 正则化。 ## 新框架 SiLD:理论驱动实践 基于上述原理,作者提出了 **SiLD**(Score-induced Latent Diffusion),一个两阶段框架: 1. **坍塌阶段**:利用小噪声下得分函数的奇异行为,自动学习低维潜在表示。 2. **精炼阶段**:在潜在空间上进行标准的扩散生成。 与 VAE 基潜在扩散模型(LDM)不同,SiLD 不需要显式的编码器-解码器训练,而是直接从去噪得分匹配目标中涌现出流形结构。理论证明,其**样本复杂度仅取决于数据的内在维度**,而非环境维度,从而绕过了维度灾难。 ## 实验验证:性能与理论一致 在 **Stacked MNIST**、**CelebA 变体** 和分子生成基准上的实验表明: - SiLD 在生成质量上匹配甚至超越 VAE 基 LDM(如 FID 分数)。 - 在重建任务上(如图像编码后还原),SiLD 持续优于 VAE 基方法,验证了其更准确的流形学习能力。 ## 意义与展望 该工作首次为“扩散模型为何能高效学习低维流形”提供了严格的理论证明,并给出了一个无需额外正则化的实用框架。这不仅加深了对扩散模型内部机制的理解,也为未来设计更高效的生成模型指明了方向——利用得分函数的几何结构,而非依赖复杂的架构设计。 对于 AI 社区而言,这一成果可能推动扩散模型在科学计算、3D 生成、药物设计等对维度敏感领域的更广泛应用。

HuggingFace11天前原文