SheepNav
新上线今天0 投票

编程示例学习中的固定集鲁棒性:示例破坏与语义分区恢复

编程示例学习(Programming by Example, PBE)系统通过少量输入-输出示例推断程序。传统鲁棒PBE方法通常将错误示例建模为随机噪声,并最小化期望或经验损失。然而,新研究指出一种不同的失效模式:对手在观察合成器后,故意选择破坏性最大的示例来损害返回程序。

论文《Fixed-Set Robustness in Programming by Example: Example Corruption and Semantic Partition Recovery》来自Yuan Si和Jialu Zhang,发表于arXiv:2607.01280。作者形式化了有限PBE版本空间中的固定集最坏情况破坏,针对字符串转换领域特定语言(DSL)实现了精确(受限池内)和启发式破坏搜索,并提出**版本空间分区聚合(VPA)**防御:在不相交的示例组上分别合成,然后通过语义签名投票。

核心发现是审慎且部分负面的:低边际PBE任务存在对抗鲁棒性维度,随机拼写错误和噪声PBE评估无法捕捉;而语义分区聚合仅在干净语义保持分区投票边际时有效,这在现实任务中常失败。实验证据来自多个基准:一个精心设计的编辑使所有8个尖峰任务失败,而200次随机拼写、DSL池和距离匹配随机控制的成功率分别为10.3%、11.0%和16.7%;生成的边际-1行在预算1下即被破坏,但VPA可恢复;在公共SyGuS上投票边际接近1,自适应攻击者将VPA准确率降至零;Playgol在141个接受行上显示出对随机控制的积极成对自助差距。

此外,一个基于精确输出提示的小型实验(20个受控边际-1任务)显示,本地和API模型在干净到攻击模式下呈现相同的定性模式。该研究揭示了PBE系统在面对针对性示例破坏时的脆弱性,并指出VPA防御的局限性,为未来更鲁棒的PBE设计提供了方向。

延伸阅读

  1. 从近似到涌现:深度学习理论的新统一视角
  2. 新型机器学习方法实现中枢神经系统肿瘤DNA甲基化分类突破
  3. IonSense-QKG:面向锂离子电池数据集发现的量子就绪元数据框架
查看原文