稀疏回归基准：贝叶斯 vs 经典方法，谁在相关性和弱信号下更强？

核心结论：贝叶斯预测更优，Lasso仍是变量选择性价比之选

在稀疏回归方法的选择上，研究者长期面临一个实际权衡：经典惩罚估计器（如 Lasso）运行仅需毫秒，但无法提供不确定性估计；而贝叶斯方法（如 Horseshoe 和 Spike-and-Slab）能给出完整的后验分布，却需要耗费数分钟的 MCMC 链。一项来自 Hao Xiao 的最新研究对这两种方法家族进行了大规模、可复现的基准测试，在特征相关、弱信号、维度增长等实际困难条件下，揭示了各自的优劣。

实验设计：覆盖 2600+ 实验场景

研究比较了六种方法：OLS、Ridge、Lasso、Elastic Net、Horseshoe、Spike-and-Slab。数据采用合成数据（三种协方差结构，相关性 rho 最高达 0.9；四个信噪比水平；p 取 20、50、100）以及真实 Diabetes 数据集，总计超过 2,600 次实验。

关键发现：贝叶斯在预测上领先，但覆盖并非完美

预测误差（MSE）：贝叶斯方法明显胜出，MSE 为 72，而经典方法在 108-267 之间。
覆盖概率：Horseshoe 实现了接近名义水平的 94.8% 覆盖；Spike-and-Slab 虽区间更窄，但覆盖仅 91.9%，其连续松弛近似可能是原因。
变量选择（F1 分数）：Lasso 和 Spike-and-Slab 并列 约 0.47。当不需要后验分布时，Lasso 是更实用的默认选择。

行业启示：不同场景下的方法选择

这项研究对机器学习实践者具有直接参考价值：

若需要不确定性量化（如医疗诊断、金融风控），Horseshoe 提供了可靠的覆盖概率，尽管计算成本较高。
若仅需变量选择，Lasso 在精度与速度之间取得了最佳平衡，是工业化部署的首选。
Spike-and-Slab 在预测和选择上表现中等，但其覆盖不足的问题需警惕。

该基准测试的代码和数据已公开，为后续研究提供了可复现的评估框架。

相关性与弱信号下的稀疏回归：经典方法与贝叶斯方法的可复现基准测试

核心结论：贝叶斯预测更优，Lasso仍是变量选择性价比之选

实验设计：覆盖 2600+ 实验场景

关键发现：贝叶斯在预测上领先，但覆盖并非完美

行业启示：不同场景下的方法选择

延伸阅读

相关资讯