2025年12月05日:Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection

  • 主页 /
  • 通知公告 /
  • 通知公告

2025年12月05日:Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection

【报告内容】

汇报人: 汤道明

汇报单位:福建理工大学

Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

本文针对约束多目标优化(CMOP)中不同演化阶段对算子需求差异显著的问题展开研究。传统 CMOEA 在复杂约束环境下通常使用固定或经验驱动的算子组合,这使得算法难以同时兼顾可行性引导、收敛性强化与多样性维持,特别是在可行域复杂、结构不连续或随演化动态变化的场景中,单一算子很难保持稳定表现。由于种群状态在进化过程中呈现强非平稳性,既有方法缺乏根据当前可行性、收敛性与多样性水平自适应选择算子的能力,因此提升算子的动态选择能力成为提高 CMOEA 性能的关键问题。

2.相关创新方案

为解决上述难题,本文提出一个深度强化学习辅助的算子选择框架(DRLOS),利用 DQN 根据种群状态自动选择最适合的演化算子。框架以可行性、收敛性与多样性三项统计信息构建状态空间,以算子集合作为行动空间,通过评价算子在不同阶段对 Pareto 前沿逼近与可行域探索的贡献来构建奖励信号,并在经验回放池中累积优化数据以稳定 Q 网络训练。框架无需改变原有 CMOEA 的演化流程与约束处理机制,可直接嵌入 CCMO、MOEA/D-AE、EMCMO 和 PPS 等代表性算法,从而实现算子行为与进化状态的自适应匹配,显著增强算法在复杂可行域上的鲁棒性。

3.实验总结

大量基准测试表明,加入 DRLOS 的算法在收敛性、多样性及可行性三方面均取得显著提升,特别是在可行域狭窄或非线性剧烈的高难度 CMOP 上,DRL 策略能够有效识别演化阶段需求并选择最匹配的算子,从而提升覆盖率与 Hypervolume 指标。与原始 CMOEA 相比,DRLOS 在多数测试实例上取得更好的 IGD+ 和 HV 性能,并通过 Wilcoxon 检验验证了其显著性。

4.未来工作

未来的研究可以在更广泛的算子库、更复杂的状态表征以及更稳定的强化学习结构上进一步扩展本框架,例如结合自注意力模型或图神经网络进行状态提取,引入更先进的 RL 算法(如 PPO、DDQN、SAC)以增强策略稳定性,并探索跨问题迁移学习以减少训练成本。此外,还可以将 DRLOS 应用于大规模决策变量、多峰可行域及动态约束环境中,以构建更通用的自适应算子调度系统,从而推动 CMOEA 在真实工程问题上的进一步落地。

报告时间:2025120519:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)