深度强化学习+Transformer:用AI求解开放车间调度问题的新范式
当Transformer遇上调度难题:小模型也能解决大问题
在制造业、服务业等众多领域,开放车间调度问题(OSSP) 一直是优化决策的核心挑战。随着任务(jobs)和机器(machines)数量的增加,问题的复杂度呈指数级增长,传统精确方法很快变得不可行。经典的分派规则和元启发式算法虽然实用,但在大规模场景下往往需要大量调参才能维持解的质量。
近日,一篇发表于 arXiv 的研究提出了一种基于 深度强化学习(DRL) 与 Transformer 架构 的调度策略,为 OSSP 的求解提供了全新思路。
模型设计:编码器-解码器 + 多头注意力
研究团队采用 Transformer 的编码器-解码器结构,利用多头注意力机制来捕捉作业与机器之间的复杂依赖关系。模型的输入极为简洁——仅使用加工时间矩阵,无需额外特征工程。训练阶段在 Taillard 基准实例(包括 4×4、5×5、7×7 和 10×10 的小规模问题)上进行,通过强化学习优化调度策略。
性能表现:小样本训练,大场景泛化
在标准测试集上,模型生成的调度方案其 makespan(最大完工时间) 通常保持在已知最优值的 15%-30% 以内。更具价值的是其泛化能力:将训练好的策略直接应用于未见过的、规模大幅增加的问题(从 40×40 到 100×100),无需任何微调或重新训练。
研究人员将模型与四种经典分派规则——SPT(最短加工时间)、LPT(最长加工时间)、MWKR(最大剩余工作量)和 EST(最早开始时间)——进行了对比。结果显示:
- Transformer 策略与 EST 性能相当,差距微小;
- 显著优于 SPT 和 LPT;
- 相对于标准下界,平均差距仅为 12.89%-15.12%。
行业意义:轻量级、可迁移的智能调度
这项研究的核心突破在于证明了 “小模型也能解决大问题”:一个在小型实例上训练的 Transformer 策略,可以零成本迁移至大规模场景,且性能不输甚至超越精心设计的启发式规则。这意味着,企业无需为每个规模的调度问题单独开发算法,只需训练一次,即可应对不同规模的调度需求。
未来,这种方法有望与实时生产数据结合,成为智能制造中动态调度决策的轻量级解决方案。不过,研究也指出当前模型在极端规模下的表现仍有提升空间,如何进一步缩小与最优解的差距,将是后续工作的重点。