孟繁威,郭宏,延小龙,武玉鑫,张德华,罗雷.基于多智能体强化学习求解柔性作业车间联合调度问题[J].计算机集成制造系统,2026,32(3):813-830.DOI:10.13196/j.cims.2024.0236.
论文题目
基于多智能体强化学习求解柔性作业车间联合调度问题
论文作者
孟繁威1,郭宏1+,延小龙1,武玉鑫1,张德华2,罗雷2
作者单位
1.太原科技大学机械工程学院
2.山西平阳重工机械有限责任公司
基金资助
山西省重点研发资助项目(202102150401009)
针对柔性作业车间中工件、AGV和机器的联合调度问题,以完工时间最小化为优化目标,提出了一种基于双重深度Q网络的分布式多智能体强化学习(DMA-DDQN)方法。创建了3类智能体,即工件分配智能体、AGV调度智能体及工序选择智能体,分别解决工件分配、AGV选择以及机器工序选择3类调度子问题。首先,双重深度Q网络(DDQN)算法用于训练3类智能体,通过捕捉生产信息和调度目标之间的关系,做出调度决策;其次,针对3类智能体,分别设计了状态和动作表示,以实现更高效的决策。其中,在设计工件分配智能体时,引入了机器评价指数,用于解决车间规模扩大时状态空间产生的维度爆炸问题;在奖励函数设计时采用了替代奖励成形技术,以提高学习效率和调度效率。最后,为了验证所提方法中各类智能体在不同规模下的性能,与现有的启发式调度算法进行了对比;进一步,与复合启发式调度算法及现有调度算法相比,验证所提方法在不同规模下的优越性。

多智能体柔性作业车间调度框架

算法流程图

基于DMA-DDQN的柔性作业车间调度流程图
孟繁威(1999-),男,山西晋中人,太原科技大学硕士研究生,研究方向:智能制造、生产调度优化等,E-mail:mm15513991919@163.com;
郭宏(1975-),女,山西太原人,太原科技大学教授,博士,硕士生导师,研究方向:智能制造、生产调度优化等,通讯作者,E-mail:hongguo1@tyust.edu.cn;
延小龙(2000-),男,山西吕梁人,太原科技大学硕士研究生,研究方向:绿色设计与智能制造等,E-mail:yxl19834500544@163.com;
武玉鑫(2000-),女,山西吕梁人,太原科技大学硕士研究生,研究方向:智能制造、故障分析等,E-mail:wuyuxin0903@163.com;
张德华(1983-),男,山西临汾人,山西平阳重工机械有限责任公司高级工程师,研究方向:智能制造,E-mail:1395818535@qq.com;
罗雷(1980-),男,山西临汾人,山西平阳重工机械有限责任公司高级工程师,研究方向:智能制造,E-mail:2622285103@qq.com。

本文刊发于《计算机集成制造系统》2026年第32卷第3期。登录期刊官网(www.cims-journal.cn)或点击“阅读原文”可免费下载全文。