新上线1个月前0 投票
U-CAN:面向生成式推荐的高效遗忘学习框架,解决隐私与性能平衡难题
生成式推荐中的隐私困境
随着大语言模型(LLMs)在推荐系统中的应用日益广泛,生成式推荐(GenRec) 正成为个性化服务的新范式。这种技术将推荐任务转化为指令驱动的序列生成问题,能够提供更加自然、个性化的交互体验。然而,在微调过程中,用户日志中的敏感属性(如年龄、性别、地理位置等)会不可避免地编码到模型参数中,引发严重的隐私泄露风险。
传统的机器遗忘(Machine Unlearning,MU) 技术试图通过梯度更新或参数剪枝来移除这些敏感信息,但在生成式推荐场景中却面临一个根本性挑战:多义性困境(Polysemy Dilemma)。简单来说,模型中的神经元往往同时承载着敏感数据和通用推理模式,粗暴地删除这些神经元会导致模型性能的灾难性下降。
U-CAN:精准遗忘的创新方案
针对这一难题,研究人员提出了U-CAN(Utility-aware Contrastive Attenuation) 框架。这是一种基于低秩适配器(LoRA)的精准遗忘方法,核心思想是在保护模型性能的前提下,有选择性地“衰减”而非完全删除高风险参数。
U-CAN 的工作原理可分为三个关键步骤:
- 风险量化:通过对比模型在“遗忘集”(包含敏感数据)和“保留集”(不包含敏感数据)上的激活差异,识别出那些对敏感信息高度敏感但对正常推理贡献有限的神经元。
- 效用感知校准:结合权重大小和保留集上的激活范数,为每个参数维度计算“效用分数”。分数高的维度对模型性能至关重要,在遗忘过程中应受到保护。
- 自适应软衰减:与传统的二值化剪枝不同,U-CAN 采用可微分的衰减函数,对 LoRA 适配器中的高风险参数进行选择性缩放。这既能抑制敏感信息的检索路径,又能保持推理电路的拓扑连通性,避免网络结构碎片化。
技术优势与实验验证
U-CAN 的创新之处在于它打破了隐私保护与模型效用之间的零和博弈。通过在两个公开数据集上的七项指标测试,该方法展现出以下优势:
- 强隐私遗忘:有效移除敏感属性,降低隐私泄露风险。
- 高效用保留:在遗忘敏感信息的同时,最大程度地保持了模型的推荐性能。
- 计算高效:操作集中在轻量级的 LoRA 适配器上,避免了全模型重训练的巨大开销。
对 AI 推荐系统的启示
U-CAN 的出现标志着机器遗忘技术从粗放式删除向精细化调控的转变。对于日益依赖大语言模型的生成式推荐系统而言,这种能力至关重要:
- 合规性驱动:随着全球数据保护法规(如 GDPR、CCPA)的收紧,可验证的遗忘能力将成为 AI 系统部署的必备功能。
- 用户体验保障:用户有权要求平台删除其个人数据,而 U-CAN 确保了“被遗忘权”的执行不会以牺牲服务质量为代价。
- 技术可持续性:避免了因隐私问题而频繁重新训练模型的资源浪费,提升了 AI 系统的长期运营效率。
小结
U-CAN 框架为解决生成式推荐中的隐私-效用权衡问题提供了一条切实可行的技术路径。它通过效用感知的对比衰减机制,在低秩适配器上实现了精准、高效的参数调控,为构建既智能又可信的下一代推荐系统奠定了重要基础。随着 AI 伦理与法规的不断演进,这类细粒度的隐私保护技术将扮演越来越关键的角色。