编程示例学习的对抗鲁棒性：固定集破坏与VPA防御

编程示例学习（Programming by Example, PBE）系统通过少量输入-输出示例推断程序。传统鲁棒PBE方法通常将错误示例建模为随机噪声，并最小化期望或经验损失。然而，新研究指出一种不同的失效模式：对手在观察合成器后，故意选择破坏性最大的示例来损害返回程序。

论文《Fixed-Set Robustness in Programming by Example: Example Corruption and Semantic Partition Recovery》来自Yuan Si和Jialu Zhang，发表于arXiv:2607.01280。作者形式化了有限PBE版本空间中的固定集最坏情况破坏，针对字符串转换领域特定语言（DSL）实现了精确（受限池内）和启发式破坏搜索，并提出**版本空间分区聚合（VPA）**防御：在不相交的示例组上分别合成，然后通过语义签名投票。

核心发现是审慎且部分负面的：低边际PBE任务存在对抗鲁棒性维度，随机拼写错误和噪声PBE评估无法捕捉；而语义分区聚合仅在干净语义保持分区投票边际时有效，这在现实任务中常失败。实验证据来自多个基准：一个精心设计的编辑使所有8个尖峰任务失败，而200次随机拼写、DSL池和距离匹配随机控制的成功率分别为10.3%、11.0%和16.7%；生成的边际-1行在预算1下即被破坏，但VPA可恢复；在公共SyGuS上投票边际接近1，自适应攻击者将VPA准确率降至零；Playgol在141个接受行上显示出对随机控制的积极成对自助差距。

此外，一个基于精确输出提示的小型实验（20个受控边际-1任务）显示，本地和API模型在干净到攻击模式下呈现相同的定性模式。该研究揭示了PBE系统在面对针对性示例破坏时的脆弱性，并指出VPA防御的局限性，为未来更鲁棒的PBE设计提供了方向。

编程示例学习中的固定集鲁棒性：示例破坏与语义分区恢复

延伸阅读

相关资讯