## 研究亮点一项发表于arXiv的新研究提出了一种**AI智能体架构**，能够通过自然语言交互，让科学家无需编写代码即可创建和监控自动化实验协议。该智能体集成于**实验编排系统（EOS）**中，在化学、生物学和材料科学三个模拟实验室的测试中，首次协议生成成功率达到**97%**，并将所需界面操作数量减少了一个数量级。 ## 核心能力该AI智能体基于**大语言模型**与实验室编排系统的深度整合，具备以下关键能力： - **自然语言创建协议**：科学家可用日常语言描述实验步骤，AI将其转化为可执行的自动化协议。 - **自动化验证与纠错**：智能体在自主循环中自动检查协议逻辑错误并尝试修正。 - **全生命周期支持**：覆盖从协议创建、运行监控、闭环优化到结果分析的完整实验流程。 - **可视化图形编辑器**：协议以交互式节点图呈现，用户可在AI辅助与手动构建之间无缝切换。 ## 行业意义当前，自动化实验室的普及面临**高软件门槛**——科学家需要掌握编程、配置文件管理和复杂的基础设施操作。这项研究通过自然语言交互大幅降低了使用门槛。97%的首轮生成成功率表明，AI已能够可靠地将模糊的人类意图转化为精确的机器指令，这对于加速新材料、药物等领域的发现具有重要意义。 ## 局限与展望目前评估基于模拟环境，真实实验室的物理约束（如仪器误差、试剂兼容性）尚未完全纳入。未来工作可能包括扩展至真实机器人平台，并进一步增强智能体对意外情况的自主处理能力。

Anthropic12天前原文

Skim：为快速高效的网络代理打造的推测执行框架

精选

网络代理（Web Agent）在执行任务时通常需要调用前沿模型进行推理、渲染浏览器并采用ReAct风格的规划，这些步骤无论任务简单与否都会完整执行，导致高昂的成本和延迟。来自微软研究院和普林斯顿大学的研究人员提出了 **Skim**，一个基于推测执行（Speculative Execution）的框架，旨在利用专建网站的可预测结构，大幅降低网络代理的运行开销。 ## 核心洞察：网站的结构化可预测性 Skim 的关键观察是，许多专为特定任务设计的网站（如电商、票务、查询类网站）在 URL 模式、答案格式以及任务到操作轨迹的映射上保持稳定。例如，对于“查询天气”或“搜索商品”这类重复性查询，其操作路径几乎一致。因此，大部分查询无需完整执行重型组件，而可以通过更轻量的路径快速完成。 ## 工作流程：离线分析与在线推测 Skim 包含两个主要阶段： 1. **离线分析（Offline Profiler）**：针对每个目标网站，预先捕获其稳定的结构化模式，包括 URL 模板、答案提取规则以及任务与轨迹的映射关系。 2. **在线推测（Runtime Speculation）**：当用户提交查询时，Skim 首先尝试将查询匹配到预定义的模板。如果匹配成功，它直接**合成目标 URL**，并用一个小型模型从页面中提取答案。随后，一个**轻量级验证器**会检查输出是否与查询和模式一致。如果验证通过，则快速返回结果；如果验证失败（即推测错误），则回退到完整的代理流程，但此时完整代理可以从快速路径提供的最终 URL 开始，从而保留上游轨迹的进展，避免从头执行。 ## 性能表现：成本降低近半，延迟减少三成在三个标准网络代理基准（WebVoyager、AgentOccam、BrowserUse）上，结合三种骨干代理（WebVoyager、AgentOccam、BrowserUse），Skim 实现了： - **中位数任务成本降低 1.9 倍**（即成本减少约 47%） - **中位数延迟降低 33.4%** - **零精度损失**，即准确率与完整代理持平这意味着，在大多数情况下，Skim 能够以极低的代价完成用户查询，仅在少数推测错误时才调用完整代理，从而在保证准确性的前提下大幅提升效率。 ## 行业意义与未来展望当前，网络代理的部署成本主要来自大模型推理、浏览器渲染和复杂的规划循环。Skim 的思路提供了一种实用且优雅的优化方向：**通过离线结构化知识将在线推理负担转移到轻量级匹配和验证**。这种方法不仅适用于现有网站，未来还可扩展到动态生成的页面或更复杂的多步任务。不过，Skim 的有效性高度依赖于网站结构的稳定性，对于频繁改版或非结构化网站，其收益可能受限。总体而言，Skim 为网络代理的高效落地提供了一种成本可控、部署友好的解决方案。

Anthropic12天前原文

知识图谱中的可扩展不确定性推理：一项模块化研究框架

精选

知识图谱是语义数据集成的重要工具，但现实世界的数据往往带有天然的不确定性。传统语义网标准（如RDF、SPARQL）在处理这种不确定性时显得力不从心，而简单的扩展方案又容易导致计算复杂度过高。最近，一篇发表于ESWC 2026博士研讨会的论文（arXiv:2605.16568）提出了一套模块化框架，从三个层面分别攻克知识图谱中的不确定性推理难题。 ## 三个层次，三种策略该研究将知识图谱中的不确定性归纳为三个层次： - **属性值不精确**：例如某人的年龄被记录为“30岁左右”，这种连续属性的模糊性。 - **三元组存在概率性**：比如“张三（可能）是医生”这一事实只有80%的置信度。 - **模式知识不完整**：当数据规模巨大时，部分实体之间的关系类型可能未被明确定义，需要从数据中统计推断。针对上述问题，研究者分别采用了三种不同的推理机制： 1. **代数方法**：定义概率文字（probabilistic literals）和对应的查询代数，让SPARQL能够直接处理连续属性上的概率查询。 2. **逻辑方法**：通过编译框架将SPARQL查询的溯源信息转化为易于计算的概率电路（probabilistic circuits），从而高效处理存在概率的三元组。 3. **几何方法**：利用拓扑感知的几何嵌入（topology-aware geometric embeddings）进行统计模式推理，在不依赖完整模式定义的情况下捕捉语义结构。 ## 核心假设：精准与效率的平衡该工作的核心假设是：**针对不同层次的不确定性，使用专门化的推理机制（代数、逻辑、几何），可以在保持语义精度的同时达到计算可处理性**。这与当前一些试图用单一通用模型（如神经网络）覆盖所有不确定性场景的做法形成了对比。 ## 行业意义知识图谱在金融风控、医疗诊断、推荐系统等领域的应用日益广泛，而这些场景恰恰充满了不确定性——数据缺失、测量误差、主观判断等。现有的语义网标准（如OWL 2）并不原生支持概率推理，导致实际部署时往往需要大量手工预处理或降低查询的语义完备性。这项研究提供了一条系统化的解决路径，有望推动知识图谱从“确定性的结构化数据”向“概率化的认知引擎”演进。当然，目前该工作仍处于早期研究阶段（14页的博士研讨会论文），三个模块之间的集成与整体性能评估还有待后续验证。但方向已经清晰：**知识图谱的下一站，或许就是学会与不确定性共舞**。

Anthropic12天前原文