递归推理系统(recursive reasoning systems)在人工智能中扮演着越来越重要的角色,它们通过交替获取新证据和优化累积理解来逐步逼近答案。然而,这类系统有两个关键设计问题往往被隐式处理:如何表示不断演化的推理状态,以及何时停止迭代。近期一篇发表于 arXiv 的论文(编号 2605.06690)对此进行了系统性的理论探讨。 ## 核心创新:认知状态图与序间隙 论文作者 Debashis Guha、Amritendu Mukherjee、Sanjay Kukreja 和 Tarun Kumar 提出将推理状态建模为一个**认知状态图(epistemic state graph)**,该图编码了提取的断言、证据关系、开放问题以及置信权重。这种表示方式能够直观地刻画推理过程中的信息结构演变。 在此基础上,他们定义了**序间隙(order-gap)**——即“先扩展后整合”与“先整合后扩展”两种策略所达到状态之间的距离。序间隙越小,说明两种顺序下的结果越一致,也就意味着继续迭代不太可能带来实质性改进。论文的主要结果给出了**线性化序间隙在不动点附近非退化的充要条件**,从而明确了该判据何时具有信息量而非代数上平凡。作者强调,这是一个局部条件,而非全局收敛保证。 ## 应用场景与意义 该框架被应用于多种递归推理场景,包括: - **智能体循环(agent loops)**:自主智能体在环境中反复感知、推理、行动的过程; - **思维树推理(tree-of-thought reasoning)**:大语言模型中流行的多路径探索式推理; - **定理证明**:形式化推理中的逐步展开与回溯; - **持续学习**:模型在新数据上不断更新知识而不遗忘旧知识。 这项工作的价值在于,它为递归推理系统提供了一个**形式化的终止判据**,有望减少不必要的计算开销,提升推理效率。在实际应用中,例如大语言模型的链式思考(chain-of-thought)或智能体框架中,开发者常依赖启发式规则(如固定迭代次数或置信度阈值)决定何时停止。而“序间隙”提供了一种更底层、基于状态差异的度量,可能带来更鲁棒的自适应终止策略。 ## 局限与展望 值得注意的是,论文明确指出了其条件的局部性——它只在不动点附近有效,不能保证全局收敛。这意味着在实际部署中,可能需要结合其他全局监控机制。此外,认知状态图的构建本身依赖于对推理过程的良好抽象,对于复杂、非结构化的现实问题,如何自动构建高质量的图表示仍是一个开放挑战。 总体而言,这篇论文为递归推理系统的理论与工程实践搭建了一座桥梁,尤其为“何时停止思考”这一经典问题提供了新的数学工具。未来工作可能包括将该判据扩展到更一般的推理框架,或在大规模语言模型中进行实证验证。
多智能体AI系统在协作过程中可能形成“联盟”——即智能体之间产生超越表面行为的深层组织。然而,仅靠观察行为往往难以区分真正的信息耦合与虚假的相似性,因为关键联盟可能在内部表征层面形成,远早于任何外显行为的变化。近期,一篇发表于 arXiv 的论文(编号 2605.06696)提出了一种实用方法,通过分析智能体的内部神经表征来检测联盟结构。 该方法的核心是构建一个基于互信息的智能体对图(pairwise mutual-information graph),从智能体的隐藏状态中提取信息,然后应用光谱分割(spectral partitioning)识别最显著的联盟边界。研究者在两个领域验证了其有效性: 1. **多智能体强化学习(MARL)环境**:该方法成功恢复了预设的层级和动态联盟结构,并正确排除了由行为协调(而非信息耦合)导致的假阳性。 2. **大语言模型(LLM)场景**:通过描述性提示,方法识别出隐含的联盟结构,追踪动态团队重组,并揭示了表征层级——其中显式标签(如角色分配)会主导冲突的交互模式。 研究还发现,传统基于标量跨智能体互信息的度量无法区分这种子群组织,而光谱分割则提供了更精细的诊断。 ### 为什么这很重要? 在分布式AI系统(如自动驾驶车队、多机器人协作或大模型协同)中,联盟可能带来效率提升,也可能导致隐藏的偏见、串通或安全风险。例如,某些智能体可能形成“小团体”,共享信息而排斥其他成员,从而影响整体公平性或鲁棒性。这项技术提供了一种可扩展的监控工具,能够在行为变化发生前就探测到潜在的组织结构,为AI安全与对齐研究提供了新的视角。 ### 未来展望 论文作者指出,该方法目前依赖对隐藏状态的访问,未来可探索如何在部分观察或黑盒场景中应用。此外,将光谱诊断与干预机制结合,或许能实现动态调整智能体关系,以抑制不良联盟或促进有益协作。
大语言模型(LLM)智能体正从“存储”走向“经验”。近日,一篇被ACL 2026 Findings接收的综述论文,系统梳理了LLM智能体记忆机制的三阶段演进:存储(Storage)、反思(Reflection)与经验(Experience),并揭示了推动这一进化的三大核心驱动力。 ## 记忆机制的三个阶段 当前研究在操作系统工程与认知科学之间摇摆,缺乏统一视角。该论文提出了一个新颖的进化框架,将LLM智能体记忆机制的发展归纳为三个阶段: - **存储(Storage)**:轨迹保存阶段,智能体仅记录历史交互的原始轨迹,类似于简单的日志存储。这是最基础的记忆形式,但缺乏对信息的提炼与泛化能力。 - **反思(Reflection)**:轨迹精炼阶段,智能体不仅能存储,还能对过往经验进行回顾、总结与修正,形成更高质量的记忆表征。这一阶段开始引入认知科学的元素。 - **经验(Experience)**:轨迹抽象阶段,智能体从多条轨迹中提取通用模式与知识,实现跨场景的迁移学习。这是记忆机制的终极形态,让智能体真正“从经验中学习”。 ## 进化的三大驱动力 论文指出,记忆机制之所以不断进化,背后有三大驱动力: 1. **长程一致性的必要性**:复杂任务要求智能体在长时间跨度内保持行为与知识的一致性,简单存储无法满足这一需求。 2. **动态环境的挑战**:真实世界环境不断变化,智能体必须能快速适应新情境,这需要记忆具备灵活更新与泛化能力。 3. **持续学习的终极目标**:智能体应能像人类一样,通过持续积累经验不断提升自身能力,而非每次从零开始。 ## 前沿探索:主动探索与跨轨迹抽象 在最高级的“经验”阶段,论文重点探讨了两种变革性机制: - **主动探索(Proactive Exploration)**:智能体不再被动接收信息,而是主动与环境交互,有目的地收集新经验,类似强化学习中的探索-利用权衡。 - **跨轨迹抽象(Cross-Trajectory Abstraction)**:智能体能够跨越不同任务轨迹,提取共性的知识与规则,形成可复用的记忆模块,从而加速新任务的学习。 ## 理论与实践的桥梁 通过整合操作系统工程与认知科学两大视角,该论文为LLM智能体记忆系统的设计提供了清晰路线图。研究者可以借鉴认知心理学中的记忆模型(如工作记忆、长期记忆、情景记忆)来设计更高效的智能体架构。同时,论文也强调了实际工程中的权衡:存储容量、检索速度、抽象层次等都需要根据具体场景进行优化。 这项研究不仅梳理了现有工作,更指明了未来方向:让智能体真正拥有“经验”,而不仅仅是“存储”。随着记忆机制的不断进化,LLM智能体将在复杂任务、人机协作和持续学习场景中释放更大潜力。
语言模型在给出最终答案前往往会生成一段推理过程,但可见的答案并不能揭示模型何时对答案偏好变得稳定。一篇来自 arXiv 的新论文(arXiv:2605.06723)提出了一个可计算的理论框架——“有限答案偏好稳定化”(finite-answer preference stabilization),通过投射模型自身的续写概率到有限答案集上,来精确定位模型做出“承诺”的时刻。 ## 核心方法:对数几率差与稳定化时刻 研究团队定义了一个关键量 δ(ξ) = S_θ(yes|ξ) - S_θ(no|ξ),即模型在给定上下文 ξ 下生成“yes”与“no”的对数几率差。对于二分类任务,这个值精确编码了模型的偏好。通过追踪 δ 在推理过程中的变化,可以识别出三个重要时间点: - **解析器可识别答案起始点**:答案首次在文本中明确出现 - **回顾性稳定化时间**:δ 值稳定在最终答案方向上的最早时刻 - **领先量**:稳定化时刻早于可识别时刻的 token 数 该方法无需依赖贪婪解码或学习探针,完全基于模型自身的概率分布。 ## 实验发现:偏好稳定早于答案输出 在 Qwen3-4B-Instruct 模型上的受控延迟裁决任务中,研究发现: - 有限答案投影在答案可解析之前就已稳定,平均领先 **17-31 个 token**(主模板) - 在解析器清理的复现模板中,领先虽缩短但仍为正值 - 该信号追踪的是模型**最终输出**而非客观真相 - 信号可从紧凑的隐藏状态摘要中线性恢复 - 信号与光标位置部分可分离,且作为共享信息传递,不存在单一不变坐标 ## 诊断与因果分析 论文进一步设计了诊断实验,将测量与在线停止、无词汇化信念、因果答案控制等概念区分开。精确的干预实验显示,δ 具有局部敏感性,但无法可靠地控制生成结果。这意味着该指标更适合作为**观测工具**而非直接控制手段。 ## 行业意义 这项工作为理解语言模型的内部决策时序提供了新视角。在可解释性、安全对齐和推理效率优化等场景中,知道模型何时“下定决心”有助于: - 设计更早的停止策略,节省计算资源 - 检测模型是否在答案稳定后仍被无关推理干扰 - 构建更透明的推理过程审计工具 论文作者来自中国研究机构,论文已提交至 arXiv,涵盖人工智能、计算语言学与机器学习三个子领域。
Zayphra 团队近日发布了 **ZAYA1-8B** 技术报告,一款聚焦推理能力的混合专家(MoE)模型。该模型总参数量为 8B,但每次推理仅激活 **700M 参数**,却在多个高难度数学与编程基准上达到甚至超越了 DeepSeek-R1-0528 等更大规模的模型。 ## 架构与训练:从零开始的推理优化 ZAYA1-8B 基于 Zyphra 自研的 **MoE++ 架构**,其预训练、中期训练和监督微调(SFT)均运行在 **全栈 AMD 计算、网络与软件平台** 上。与许多后期才加入推理能力的模型不同,ZAYA1-8B 从预训练阶段起就引入了推理数据,并采用了一种 **保留答案的裁剪方案**,确保在压缩序列长度的同时不丢失关键推理结果。 后训练阶段采用 **四阶段强化学习(RL)级联**: 1. **推理热身**:在数学和谜题数据上进行 RL 训练,激活基础推理能力。 2. **RLVE-Gym 课程**:覆盖 400 个任务的强化学习环境,提升泛化性。 3. **数学与代码 RL**:结合测试时计算(test-time compute)轨迹和基于竞赛编程参考的合成代码环境,强化专项能力。 4. **行为 RL**:针对聊天和指令跟随进行优化,确保模型在通用场景下的可用性。 ## 性能亮点:小参数,大能力 尽管激活参数不足 1B,ZAYA1-8B 在多个基准上表现出色: - **数学推理**:在 AIME 2025 上达到 91.9%,HMMT 2025 上达到 89.6%(使用 Markovian RSA 方法)。 - **编程任务**:在竞赛级编程基准上与 DeepSeek-R1-0528 持平或更优。 - **对比竞品**:与 Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-High 等更大模型相比,差距显著缩小。 ## 创新方法:Markovian RSA 测试时计算 ZAYA1-8B 引入了一种名为 **Markovian RSA** 的测试时计算方法。该方法递归地聚合多个并行推理轨迹,但每轮仅向前传递 **有限长度的推理尾部**(默认 4K tokens)。这种设计大幅降低了测试时的计算开销,同时保留了多路径探索的优势,使模型在数学推理上接近甚至超越超大模型。 ## 行业意义与展望 ZAYA1-8B 的成功证明,通过精心设计的架构和训练策略,**小参数模型可以在特定领域挑战大模型**。这为资源受限的场景(如边缘设备、实时应用)提供了新的可能性。同时,其全栈 AMD 平台的训练经验也展示了非 NVIDIA 生态在 AI 领域的潜力。未来,Zayphra 计划进一步优化 MoE++ 架构,并探索更高效的测试时计算方法。
大型语言模型(LLM)越来越多地应用于需要多轮交互的对话场景,但现有系统大多被动响应,缺乏主动获取缺失信息的推理机制。针对这一瓶颈,研究团队提出了一种名为 **BALAR(Bayesian Agentic Loop for Active Reasoning)** 的任务无关外循环算法,无需微调即可让 LLM 智能体与用户进行结构化多轮交互。 ## 核心机制:主动提问与信念更新 BALAR 的核心思想是让智能体像人类侦探一样,在信息不足时主动提问。具体来说,它维护一个关于潜在状态的结构化信念,通过最大化期望互信息来选择最具信息量的澄清问题。当当前状态表示不足以解释观察时,算法会动态扩展状态空间——这种自适应能力使其能灵活应对复杂推理任务。 ## 性能表现:三大基准大幅领先 研究者在三个不同领域的基准上评估了 BALAR: - **AR-Bench-DC**(侦探推理):准确率提升 **14.6%** - **AR-Bench-SP**(思维谜题):准确率提升 **38.5%** - **iCraft-MD**(临床诊断):准确率提升 **30.5%** 所有测试中,BALAR 均显著优于包括标准 ReAct 循环、主动提示等在内的基线方法。尤其在需要多步逻辑推理的谜题任务上,准确率提升近四成,表明主动提问策略对复杂推理有质的帮助。 ## 行业意义:从被动对话到主动探索 当前 LLM 应用(如客服、医疗问诊、故障排查)普遍采用“一问一答”模式,系统只能等待用户提供信息。BALAR 的提出让智能体能够自主识别信息缺口并主动追问,这类似于人类专家在诊断或调查中的行为。值得注意的是,该方法无需额外训练即可部署,降低了实际应用的门槛。 ## 局限与展望 论文未披露计算开销细节——每次提问都需计算互信息,在实时场景中可能带来延迟。此外,状态空间的动态扩展策略尚需更严谨的理论分析。不过,BALAR 为构建更具自主性的 AI 系统提供了一个优雅的贝叶斯框架,未来可望与工具调用、多模态输入等结合,应用于更复杂的交互环境。
一项新研究展示了如何利用现有城市监控摄像头,通过人工智能与计算机视觉技术,快速评估人行道延伸、临时安全岛等“软干预”措施对交通速度与安全的影响。 ## 研究背景 城市交通管理中的“软基础设施”指非永久性、低成本的道路改造措施,例如临时隔离桩、彩色铺装或凸起人行横道。这类干预措施安装灵活、调整方便,但传统效果评估依赖人工测速或临时传感器,成本高且样本有限。 ## 方法创新 来自北卡罗来纳大学夏洛特分校和明尼苏达大学的研究团队提出一个AI分析框架,直接利用城市已有的闭路电视(CCTV)监控摄像头进行数据采集。系统采用深度学习模型检测车辆,并通过**透视变换**将图像中的像素运动转换为真实世界速度,无需额外硬件。 研究在明尼阿波利斯市的多个路口进行了**前后对比实验**,并在干预后第1周和第2周进行重复测量,以观察效果的持续性。 ## 主要发现 - **无信号灯路口**:平均车速下降高达**18.75%**,85%分位车速下降**16.56%**,穿行交通量减少**12.2%**。 - **信号灯路口**:除个别地点外,平均车速下降最高达**20.0%**,85%分位车速下降**17.19%**。 这些数据表明,软干预措施能有效降低车速并减少不必要的穿行交通,且效果在两周内保持稳定。 ## 行业意义 该研究为交通政策评估提供了一种**低成本、可扩展**的新范式。传统方法需要部署专用传感器或人工调查,而AI+CCTV方案利用现有基础设施,数据采集几乎零边际成本,且能覆盖更多路口。 这一思路与智慧城市的发展方向高度契合。随着城市摄像头网络的普及,AI分析不仅能用于交通管理,还可延伸至行人流量统计、违规行为检测等领域。论文已被《国际交通研究杂志》接收,预计将为城市交通规划提供实用工具。 ## 局限与展望 研究也指出,单摄像头视角存在遮挡问题,且速度估算精度受摄像头安装角度影响。未来可结合多摄像头融合或边缘计算提升实时性。尽管如此,该工作已证明AI在交通政策评估中的巨大潜力。
arXiv:2605.05403v1 Announce Type: new Abstract: This position paper argues that sycophancy in LLMs is a boundary failure between social alignment and epistemic integrity. Existing work often operationalizes sycophancy through external behavior such as agreement with incorrect user beliefs, position reversals, or deviation from an objective standard of correctness. These formulations capture only overt forms of the phenomenon and leave subtler boundary failures involving epistemic integrity and s
arXiv:2605.05407v1 Announce Type: new Abstract: Scaling LLM-based embodied agents from text-only environments to complex multimodal settings remains a major challenge. Recent work identifies a perception-reasoning-decision gap in standalone Vision-Language Models (VLMs), which often overlook task-critical information. In this paper, we introduce PRISM, a framework that tightly couples perception (VLM) and decision (LLM) through a dynamic question-answer (DQA) pipeline. Instead of passively accep
金融文档问答(QA)要求对分散在公司文件中的异构证据(结构化表格、文本叙述和脚注)进行复杂的多步数值推理。现有的检索增强生成(RAG)方法采用单次检索然后生成的范式,难以应对金融分析中常见的组合推理链。为此,研究人员提出了 **FinAgent-RAG**,一种智能体 RAG 框架,它通过迭代检索-推理循环与自我验证来编排流程,专为金融数值推理的精度要求而设计。 ## 三大核心创新 FinAgent-RAG 集成了三项领域特定创新: 1. **对比金融检索器(Contrastive Financial Retriever)**:通过难负样本挖掘训练,能够区分语义相似但数值不同的金融段落,提升检索精度。 2. **程序化思维推理模块(Program-of-Thought)**:生成可执行的 Python 代码进行精确算术运算,避免依赖容易出错的 LLM 心算推理。 3. **自适应策略路由器(Adaptive Strategy Router)**:根据问题复杂度动态分配计算资源,在 FinQA 数据集上减少 **41.3%** 的 API 成本,同时保持准确率。 ## 性能表现 在三个基准数据集上的广泛实验表明,FinAgent-RAG 取得了领先结果: - **FinQA**:执行准确率 **76.81%** - **ConvFinQA**:**78.46%** - **TAT-QA**:**74.96%** 相比最强基线,准确率提升了 **5.62 至 9.32 个百分点**。消融实验、跨四种 LLM 的骨干网络评估以及部署成本分析,均证实了该框架的鲁棒性和在实际金融机构中的可行性。 ## 行业意义 当前金融分析领域,大语言模型(LLM)虽展现出强大能力,但在需要精确数值计算的场景中仍存在幻觉和计算错误问题。FinAgent-RAG 通过将检索、代码生成和自适应资源分配相结合,为金融文档 QA 提供了一种更可靠、更高效的解决方案。该工作已提交至《Expert Systems with Applications》期刊,并公开了详细的技术报告(22 页,含 11 张图表和 13 张表格)。 > 一句话总结:FinAgent-RAG 通过智能体循环、代码推理和自适应路由,在金融数值问答上显著超越现有方法,同时降低了计算成本。
AI 安全政策的制定高度依赖人工或大模型对输出内容的标注,但标注者之间的分歧长期困扰着行业。这种分歧究竟源于操作失误、政策歧义,还是价值观差异?传统方法难以低成本区分。最新研究提出 **Annotator Policy Models (APMs)**,通过可解释模型从标注行为中逆向学习标注者的内部安全政策,无需额外询问即可揭示分歧根源,为更精准、透明的安全政策设计提供新工具。 ## 分歧的三种来源 安全政策定义了 AI 输出的“安全”与“不安全”边界,指导数据标注和模型开发。然而,标注不一致普遍存在。研究将其归为三类: - **操作失误**:标注者误解或错误执行任务,需加强质量控制; - **政策歧义**:政策文本表述模糊,导致不同解读,需澄清措辞; - **价值多元**:标注者本身持有不同的安全观念,需通过讨论整合多元视角。 直接询问标注者理由成本高昂,且自我报告往往不可靠——无论是人类还是大模型,都难以准确回溯决策过程。 ## APMs:从行为中学习政策 APMs 的核心思路是:仅利用标注者的标签行为数据,训练一个可解释的模型来“模仿”其内部安全政策。模型准确率超过 80%,并能忠实预测标注者在反事实编辑下的反应,在受控实验中成功还原已知的政策差异。 这意味着研究者可以“看见”标注者的推理逻辑,而无需额外负担。 ## 两大应用场景 论文展示了 APMs 的两项关键能力: 1. **揭示政策歧义**:通过对比不同标注者的模型,发现他们对同一安全指令的解读差异。例如,部分标注者可能更看重“冒犯性语言”,而另一些则聚焦“事实准确性”。 2. **揭示价值多元**:发现不同人口统计学群体在安全优先级上的系统性差异,例如年龄、文化背景对“有害内容”定义的显著影响。 这些能力为政策设计提供了数据驱动的基础,使安全标准更具包容性。 ## 行业意义 当前 AI 安全领域,标注一致性是评估模型可靠性的关键指标。APMs 提供了一种低成本、非侵入式的诊断工具,帮助团队区分“需要澄清政策”还是“需要尊重多元观点”。随着 AI 系统部署到全球不同文化环境,理解标注者的内在政策差异将成为安全治理的重要环节。 论文发表于 ACM FAccT 2026,共 38 页,包含 13 张图表。代码与数据尚未公开,但方法本身具有较高的实用潜力。
随着企业级AI代理越来越多地被部署在受限检索系统、委托工作流和策略约束的决策环境中,一个微妙而危险的问题浮出水面:**系统可能正确执行了访问控制,却生成一个看似完整的答案,而关键证据实际上位于调用者的授权边界之外**。这种“沉默过滤”(silent filtering)行为可能导致灾难性后果。为此,研究者Krti Tallam提出了 **Partial Evidence Bench**,一个确定性基准测试,旨在量化这种授权受限证据下的失败模式。 ## 基准测试的核心设计 Partial Evidence Bench 包含三个场景家族——**尽职调查、合规审计和安全事件响应**,共72个任务。每个任务都配备了ACL分区语料库、完整答案、授权视图答案、完整性判断以及结构化缺口报告。系统在四个维度上接受评估:答案正确性、完整性感知、缺口报告质量以及不安全完整性行为。 ## 关键发现与基线结果 基线测试结果令人警醒:**在所有场景中,沉默过滤都表现出灾难性的不安全行为**。相比之下,采用“明确失败并报告”策略的系统能够消除不安全完整性,而不会导致任务退化为简单的弃权。初步的真实模型运行显示,不同模型和场景在是否过度声称完整性、保守地低估完整性或以企业可用形式报告不完整性方面存在显著差异。 ## 行业意义 这项工作的核心贡献在于:**使一个治理关键的代理失败模式变得可测量**,无需人工评判或易受污染的静态语料。对于正在将AI代理引入合规、审计和高风险决策的企业而言,Partial Evidence Bench 提供了一种工具来识别和缓解“看起来正确但实际遗漏关键证据”的风险。随着代理系统自主性增强,这种基准测试将成为AI治理和安全评估的重要基础设施。
一项针对医疗、金融和管理领域专业人士的访谈研究揭示了 AI 采纳失败的核心原因:组织目标与员工实际体验之间存在严重错位。研究人员指出,员工——那些每天与 AI 系统协作的人——在 AI 设计和使用的决策中往往被忽视,导致系统难以融入真实工作流。 ## 关键障碍 研究识别出四大类障碍: - **可用性与互操作性差**:AI 工具与现有系统不兼容,操作复杂,增加员工负担。 - **期望错位**:管理层对 AI 能力过度乐观,而一线员工发现系统无法解决实际痛点。 - **控制权有限**:员工无法调整或干预 AI 决策,产生不信任感。 - **沟通不足**:组织未能就 AI 的目的、变更和限制进行充分解释,引发抵触。 ## 从隐形到核心 研究者认为,成功采纳 AI 必须将员工置于核心位置。他们建议从三个层面进行调整: - **个体层面**:提供定制化培训,让员工理解 AI 的决策逻辑。 - **任务层面**:重新设计工作流,使 AI 成为辅助而非替代工具。 - **组织层面**:建立反馈机制,让一线声音影响 AI 的迭代。 ## 行业启示 这项研究呼应了业界长期存在的“AI 落地困境”——许多企业投入巨资却收效甚微。例如,在医疗领域,AI 诊断工具因与医生工作习惯冲突而被弃用;在金融领域,风控模型因缺乏可解释性而遭遇抵制。研究者强调,**技术适配只是起点,人与系统的协同才是关键**。 研究团队呼吁,未来的 AI 开发应更多采用参与式设计,让员工从工具使用者转变为共同创造者。唯有如此,AI 才能真正实现“提高效率”的承诺,而非成为组织中的另一道隐形墙。
## 从少数示例中学习正确行为:一种验证自主智能体顺序执行的新方法 随着自主智能体(autonomous agents)日益复杂,验证其顺序行为(sequential behavior)成为一项重大挑战。传统测试方法要么依赖人工规范,要么要求精确的顺序匹配,要么需要成千上万的训练样本。近日,一篇发表于 arXiv 的论文提出了一种新颖算法,能够**仅从2-10条成功的执行轨迹中自动学习正确行为**,并以此验证新的执行过程。 ### 核心方法:编译器理论与大语言模型的结合 该算法融合了编译器理论中的**支配者分析(dominator analysis)**与**多模态大语言模型(multimodal LLM)驱动的语义理解**,用于识别关键状态并处理非确定性行为。系统首先使用前缀树接收器(Prefix Tree Acceptor)构建一个泛化的“真实模型”(ground truth model),然后通过多层级等价检测合并轨迹,最后利用拓扑子序列匹配(topological subsequence matching)来验证新的执行过程。 ### 实验表现:3条轨迹即可高精度检测缺陷 在受控实验中,系统仅使用**3条训练轨迹**就实现了对产品缺陷和“假成功”(false successes)的高精度检测。该方法还提供可解释的验证结果和覆盖率指标,并可跨多个领域应用,包括**UI测试、代码生成和机器人流程**。 ### 行业意义:降低验证门槛,提升智能体可靠性 当前,自主智能体在自动驾驶、软件工程、机器人等领域广泛应用,但其行为验证往往成本高昂。传统方法如手动编写测试用例或使用海量数据训练模型,难以适应智能体的动态和非确定性。该算法通过少量示例即可建立行为模型,大幅降低了验证门槛,为构建更可靠的智能系统提供了新思路。 ### 展望 尽管该算法在实验中表现优异,但论文作者也指出,其在处理极端复杂或高度随机的行为时可能仍需改进。未来工作可能包括扩展至更多领域、优化语义理解模块,以及探索与强化学习等方法的结合。
## 引言:AI的创造力短板 尽管大语言模型(LLM)在推理和与环境交互的任务中表现出色,但其创造性解决问题的能力仍鲜有探索。伊利诺伊大学厄巴纳-香槟分校和Salesforce AI的研究人员近日发布了一项新研究,通过“创造性工具使用”这一独特视角来评估AI的创造力——模型需通过推理物体的功能属性和特征来重新利用现有物体,而非依赖常规用法。 ## 核心贡献:CreativityBench基准 作为第一步,研究团队推出了**CreativityBench**,一个专门评估LLM基于功能属性的创造性基准。为了构建该基准,他们首先建立了一个大规模的功能属性知识库(KB),包含**4,000个实体**和**超过15万条功能属性注释**,明确关联了物体、部件、特征和可操作用途。在此基础上,他们生成了**14,000个接地任务**,要求模型在约束条件下识别非显而易见的、物理上可行的解决方案。 ## 评测结果:表面可行,深层乏力 研究者在10个最先进的LLM(包括闭源和开源模型)上进行了评估。结果显示,模型通常能够选出一个合理的物体,但在识别正确部件、其功能属性以及解决任务所需的底层物理机制方面表现不佳,导致性能显著下降。具体来说: - **模型规模提升效果迅速饱和**:更大的模型并未带来持续的创造力提升。 - **强通用推理能力无法可靠迁移**:模型在标准推理任务上的优势并未转化为创造性功能发现能力。 - **常见推理策略收益有限**:如思维链(Chain-of-Thought)等推理时策略带来的改进微乎其微。 ## 意义与展望 这些结果表明,创造性工具使用仍是当前模型面临的重大挑战。CreativityBench为研究这一缺失的智能维度提供了有效的试验场,对未来的智能体规划和推理模块设计具有潜在启示。研究者指出,要真正实现具备创造力的AI代理,可能需要超越当前基于统计模式的推理方法,更深入地模拟人类对物体物理属性的理解与灵活运用。
arXiv:2605.03067v1 Announce Type: new Abstract: Approval-based committee voting has received significant attention in the social choice community. Among the studied rules, Thiele rules, and especially Proportional Approval Voting (PAV), stand out for desirable properties such as proportional representation, Pareto optimality, and support monotonicity. Their main drawback is that computing a Thiele outcome is NP-hard in general. A glimpse of hope comes from the fact that Thiele rules are better b
arXiv:2605.03101v1 Announce Type: new Abstract: Symbolic regression (SR), the task of discovering mathematical expressions that best describe a given dataset, remains a fundamental challenge in scientific discovery. Traditional approaches, primarily based on genetic algorithms and related evolutionary methods, have proven useful but suffer from scalability and expressivity limitations. Recently, large language model (LLM)-based evolutionary search methods have been introduced into SR and show pr
人类在团队协作中依赖自然语言更新任务状态,但并非所有信息都会被充分传达,导致团队成员间产生心智模型(Mental Model)差异,进而影响整体绩效。来自塔夫茨大学的研究者提出了一套系统框架,旨在实时识别和分类团队对话中出现的四种心智模型差异类型:**无依据信念**、**错误信念**、**信念矛盾**和**信息遗漏**。该研究被认知科学学会2026年会接收,为动态团队协调研究提供了新工具。 ## 研究背景与挑战 传统共享心智模型(SMM)评估主要依赖事后专家编码,这种方法无法捕捉实时协调动态,也难以预测未来分歧。研究者指出,团队对话中自然涌现的差异模式可能包含预测性信号,若能实时检测,将有助于改善人机协作和人类团队效率。 ## 四种差异类型 框架将心智模型差异分为四类: - **无依据信念**:团队成员持有未经任务信息支持的信念。 - **错误信念**:基于错误信息形成的信念。 - **信念矛盾**:不同成员持有的信念相互冲突。 - **信息遗漏**:关键信息未被传达,导致认知空白。 这些类型覆盖了团队沟通中常见的认知偏差,为自动检测提供了可操作的定义。 ## 实验验证 研究团队收集了**20组两人团队**在协作物体识别任务中的对话数据,任务分为四个递进难度级别。通过分析历史差异计数,他们发现:即使采用**均匀加权**作为探索性基线,也能实现有意义的预测准确率;且不同差异类型的可预测性存在差异。这表明对话中早期出现的差异模式确实能够预示后续的心智模型分歧。 ## 意义与展望 该框架首次将心智模型差异的检测从事后分析推向实时预测,对**人机协作系统**和**团队训练工具**具有直接应用价值。例如,AI助手可据此主动提示团队成员补充信息或澄清矛盾,从而提升整体协调效率。未来研究可进一步优化预测模型,并探索更复杂的团队场景。
## 小模型挑战大模型:Terminus-4B 的智能体执行实验 在 AI 智能体(Agent)架构中,一个主流趋势是将复杂任务拆解为多个子任务,由专门的子智能体(subagent)负责执行。这些子智能体通常承担搜索、调试或终端执行等具体职责,从而保持主智能体的上下文窗口整洁,避免被冗长的日志或测试输出污染。然而,目前业界普遍使用前沿大模型(如 GPT-4、Claude 等)作为子智能体,这带来了高昂的成本和延迟。 一篇新论文《Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?》对此提出了挑战。研究人员基于 Qwen3-4B 模型,通过监督微调(SFT)和强化学习(RL)训练了一个名为 **Terminus-4B** 的模型,专门用于**终端执行**这一子任务。他们采用基于评分标准的 LLM-as-Judge 奖励机制,让模型学会高效处理命令行操作、解析构建日志等。 ### 性能表现:小模型也能超越大模型? 实验在 **SWE-Bench Pro** 和内部 **SWE-Bench C#** 基准上进行。结果显示,Terminus-4B 将主智能体的 token 使用量减少了约 **30%**,同时任务性能与不使用子智能体的基线持平。更令人惊讶的是,Terminus-4B 不仅缩小了原始 Qwen3-4B 与 Claude Sonnet/Opus、GPT-5.3-Codex 等前沿模型之间的差距,**在多项指标上甚至超越了这些大模型**。 具体来说,主智能体更倾向于依赖 Terminus-4B 的输出结果,而自身执行终端任务的次数显著减少——这验证了子智能体的有效性。 ### 对行业的影响 这项研究为 AI 系统设计提供了新思路:**并非所有子任务都需要大模型**。通过针对特定任务微调小模型,可以在保持甚至提升性能的同时,大幅降低计算成本和延迟。这对于需要大量并行子智能体的复杂编码 Agent 来说尤其有价值。 ### 局限与展望 论文聚焦于终端执行这一狭窄任务,Terminus-4B 在其他子任务(如搜索、调试)上的表现尚未验证。此外,强化学习的奖励设计依赖 LLM 评判,可能引入偏差。不过,这无疑为“小模型专用化”路线提供了有力证据——未来,我们或许会看到更多像 Terminus-4B 这样的小模型,在智能体生态中扮演关键角色。
## 概览 一项新研究提出了一种**工具中介的LLM架构**,旨在为高风险决策环境下的自主网络防御提供形式化保证。该工作由Kerri Prinos等人完成,论文《Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense》已提交至arXiv。 ## 核心问题:自主防御的稳定性缺口 安全运营中心(SOC)在对抗压力下配置端点检测与响应(EDR)策略时,现有智能体系统缺乏形式化保证。传统LLM智能体虽能灵活决策,但其非确定性行为在对抗环境中可能引发不可控风险。研究团队试图回答:**如何在不牺牲LLM创造性探索能力的前提下,确保系统稳定性?** ## 技术方案:工具中介架构 架构核心是让LLM智能体通过**确定性工具**与环境交互,包括Stackelberg最佳响应、贝叶斯观测器更新、攻击图原语等。智能体从工具输出接口强制执行的**有限动作目录**中选择行为,从而将非确定性限制在安全边界内。 关键创新在于**复合Lyapunov函数**,该函数在Lean 4中通过机器验证(零"sorry"),证明了系统的可控性、非对称传感器数据的可观测性,以及对抗智能扰动下的**输入-状态稳定性(ISS)**。两个推论进一步将证书扩展至目录中的任意控制器或对手。 ## 实验验证:显著效果与稳定性 在**282个真实企业攻击图**上,所有稳定性声明均通过验证。在攻防遥测数据上,**Claude Sonnet 4**控制器相比确定性贪婪基线,将攻击者预期收益(游戏值)降低**59%**,且40次运行(4种温度)中方差为零。**Claude Haiku 4.5**控制器虽收敛至次优游戏值,但在额外40次运行中始终保持在目录边界内,证明架构稳定性不依赖控制器能力。 ## 行业意义 该工作为**自主网络防御**提供了可验证的安全性基础。工具中介架构将LLM的创造性用于策略探索,同时通过形式化方法保证系统稳定,有望在SOC自动化、EDR策略优化等场景落地。未来,类似方法或可扩展至其他高风险自主决策领域。