SheepNav
精选今天0 投票

让失败更安全:一种约束化、可验证的智能体框架,用于开放网络数据采集

从自由代码到结构化配置:一种更可靠的数据采集方案

大型语言模型和智能体虽然能根据自然语言需求生成网络爬虫,但直接生成代码的方式因依赖错误、选择器失效、模式不匹配以及页面结构异构等问题而不可靠。最新研究提出了一种约束化、可验证的智能体框架,将LLM输出从自由形式的代码转变为类型化的JSON采集器配置,从而显著提升可靠性与可复用性。

核心创新:六类采集器分类法

该框架的核心是一套六类型采集器分类法,配合模板和效用函数约束、静态Airflow DAG执行、基于规则的质量检查以及结构化反馈修正。这种设计将智能体的任务从“写代码”简化为“填配置”,大大降低了出错的概率。

实验验证:零执行阶段Token消耗

在138个任务的实验中,该分类法能很好地支持基于描述的需求分类,但同时证实:稳定的实例化需要完成源、字段和执行约束,而不仅仅是初始描述。在80个独立源验证的任务上,该框架实现了零执行阶段LLM Token消耗,且平均挂钟时间最低。它用适度的一次性生成质量,换取了可复用、确定性、可验证的执行路径,特别适合重复调度的采集任务。

行业意义:降低AI应用门槛

这项研究对于AI行业的数据收集环节具有实际价值。传统上,构建可靠的网络爬虫需要大量人工调试,而LLM直接生成又不够稳定。该框架通过将不可控的代码生成转化为可控的配置生成,让数据采集变得更低成本、可验证,为需要持续获取开放网络数据的企业和研究者提供了一种新选择。

论文地址:arXiv:2607.00035

延伸阅读

  1. 构建认知型AI素养:学生与AI协作编程中的认知目标与过程检测
  2. A Contextual-Bandit Oversight Game with Two-Sided Informational Asymmetry
  3. RareDxR1:无需人类标注的罕见病自主诊断AI,突破开放式推理瓶颈
查看原文