FastSinkhorn：12倍加速的CUDA最优传输求解器

最优传输（Optimal Transport, OT）是机器学习中处理分布对齐、图像迁移和点云匹配等任务的核心工具，但传统Sinkhorn算法在正则化参数较小时面临数值不稳定问题，且现有实现常因深度学习框架的额外开销导致性能瓶颈。近日，研究者Hao Xiao提出了FastSinkhorn——一个轻量级、原生CUDA实现的对数域Sinkhorn算法，通过结合Warp级洗牌归约与共享内存分块技术，实现了高GPU利用率与数值稳定性的兼顾。

核心创新：对数域与Warp级优化

FastSinkhorn完全运行在对数域中，避免了标准域下因指数运算导致的上溢/下溢问题。实验表明，即使正则化参数小至ε=10⁻⁴，该实现仍能保持稳健计算，而标准域方法在此条件下早已失效。

在GPU优化层面，算法利用Warp级洗牌指令（如__shfl_down_sync）代替传统的全局原子操作，大幅减少显存访问延迟；同时结合共享内存分块策略，对成本矩阵和迭代变量进行高效缓存，使得计算密集型迭代过程充分饱和GPU计算单元。

性能数据：速度与显存的双重提升

在n=m=8192的密集OT问题上，FastSinkhorn取得了显著的加速效果：

相比广泛使用的POT库（Python Optimal Transport），实现12倍加速；
相比GPU加速的PyTorch基线，实现5.9倍加速；
显存占用仅256 MB，远低于同类实现。

这些数字得益于原生CUDA内核避免了Python解释器与自动微分框架的调度开销，同时精心设计的归约模式使得计算瓶颈从显存带宽转移至算术逻辑单元。

应用验证：从图像到3D点云

研究者在三个典型场景中验证了FastSinkhorn的实际效果：

图像颜色迁移：通过求解颜色分布之间的OT映射，实现自然且可控的色彩风格迁移；
3D点云匹配：在点云配准任务中，对数域稳定性确保了稀疏对应关系的准确提取；
收敛性分析：展示了不同正则化参数下算法迭代收敛曲线，证实了数值稳定性带来的更可靠收敛行为。

行业意义

随着生成式AI与多模态模型对分布对齐需求的增长（如扩散模型的潜在空间对齐、大模型的知识蒸馏），高效且数值稳定的OT求解器成为基础设施级需求。FastSinkhorn表明，通过底层CUDA优化而非依赖高层框架，可以在保持精度的同时获得数量级的速度提升。这一思路对于机器学习工程化具有示范意义——在深度学习框架日益臃肿的背景下，针对特定算子开发轻量级原生实现，可能是突破性能瓶颈的有效路径。

该工作代码已开源（见论文链接），预计将推动OT在更大规模任务（如百万级点云、高维数据）中的应用。

FastSinkhorn：基于Warp级GPU归约的快速对数域Sinkhorn最优传输

核心创新：对数域与Warp级优化

性能数据：速度与显存的双重提升

应用验证：从图像到3D点云

行业意义

延伸阅读

相关资讯