SheepNav
精选今天0 投票

深度强化学习+Transformer:用AI求解开放车间调度问题的新范式

当Transformer遇上调度难题:小模型也能解决大问题

在制造业、服务业等众多领域,开放车间调度问题(OSSP) 一直是优化决策的核心挑战。随着任务(jobs)和机器(machines)数量的增加,问题的复杂度呈指数级增长,传统精确方法很快变得不可行。经典的分派规则和元启发式算法虽然实用,但在大规模场景下往往需要大量调参才能维持解的质量。

近日,一篇发表于 arXiv 的研究提出了一种基于 深度强化学习(DRL)Transformer 架构 的调度策略,为 OSSP 的求解提供了全新思路。

模型设计:编码器-解码器 + 多头注意力

研究团队采用 Transformer 的编码器-解码器结构,利用多头注意力机制来捕捉作业与机器之间的复杂依赖关系。模型的输入极为简洁——仅使用加工时间矩阵,无需额外特征工程。训练阶段在 Taillard 基准实例(包括 4×4、5×5、7×7 和 10×10 的小规模问题)上进行,通过强化学习优化调度策略。

性能表现:小样本训练,大场景泛化

在标准测试集上,模型生成的调度方案其 makespan(最大完工时间) 通常保持在已知最优值的 15%-30% 以内。更具价值的是其泛化能力:将训练好的策略直接应用于未见过的、规模大幅增加的问题(从 40×40 到 100×100),无需任何微调或重新训练。

研究人员将模型与四种经典分派规则——SPT(最短加工时间)、LPT(最长加工时间)、MWKR(最大剩余工作量)和 EST(最早开始时间)——进行了对比。结果显示:

  • Transformer 策略与 EST 性能相当,差距微小;
  • 显著优于 SPT 和 LPT
  • 相对于标准下界,平均差距仅为 12.89%-15.12%

行业意义:轻量级、可迁移的智能调度

这项研究的核心突破在于证明了 “小模型也能解决大问题”:一个在小型实例上训练的 Transformer 策略,可以零成本迁移至大规模场景,且性能不输甚至超越精心设计的启发式规则。这意味着,企业无需为每个规模的调度问题单独开发算法,只需训练一次,即可应对不同规模的调度需求。

未来,这种方法有望与实时生产数据结合,成为智能制造中动态调度决策的轻量级解决方案。不过,研究也指出当前模型在极端规模下的表现仍有提升空间,如何进一步缩小与最优解的差距,将是后续工作的重点。

延伸阅读

  1. YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications
  2. 拒绝行为不止一个方向:Diff-in-Means 与 INLP 的初步比较
  3. WorkBench 再访:两年后,职场 AI 智能体能力与安全性双飞跃
查看原文