精选今天0 投票
让失败更安全:一种约束化、可验证的智能体框架,用于开放网络数据采集
从自由代码到结构化配置:一种更可靠的数据采集方案
大型语言模型和智能体虽然能根据自然语言需求生成网络爬虫,但直接生成代码的方式因依赖错误、选择器失效、模式不匹配以及页面结构异构等问题而不可靠。最新研究提出了一种约束化、可验证的智能体框架,将LLM输出从自由形式的代码转变为类型化的JSON采集器配置,从而显著提升可靠性与可复用性。
核心创新:六类采集器分类法
该框架的核心是一套六类型采集器分类法,配合模板和效用函数约束、静态Airflow DAG执行、基于规则的质量检查以及结构化反馈修正。这种设计将智能体的任务从“写代码”简化为“填配置”,大大降低了出错的概率。
实验验证:零执行阶段Token消耗
在138个任务的实验中,该分类法能很好地支持基于描述的需求分类,但同时证实:稳定的实例化需要完成源、字段和执行约束,而不仅仅是初始描述。在80个独立源验证的任务上,该框架实现了零执行阶段LLM Token消耗,且平均挂钟时间最低。它用适度的一次性生成质量,换取了可复用、确定性、可验证的执行路径,特别适合重复调度的采集任务。
行业意义:降低AI应用门槛
这项研究对于AI行业的数据收集环节具有实际价值。传统上,构建可靠的网络爬虫需要大量人工调试,而LLM直接生成又不够稳定。该框架通过将不可控的代码生成转化为可控的配置生成,让数据采集变得更低成本、可验证,为需要持续获取开放网络数据的企业和研究者提供了一种新选择。
论文地址:arXiv:2607.00035