本发明属于海洋工程领域,具体地,涉及一种水下生产控制系统智能维修决策方法及系统。
背景技术:
1、海洋石油开发是当今世界的重要能源工业之一,由于工作环境恶劣,海洋石油的开采工作较陆上石油开采作业具有更多的风险。为了保证水下设备的稳定运行,对其进行预测性维修是非常必要的。根据设备的实际状况来决定是否需要进行维修,以及维修的具体方案和时间。维修费用是构成生产设施总预算的重要部分,甚至可以达到总生产成本的70%。为了降低维修成本,必须合理制定维修策略,减少维修次数,并尽可能地延长设备的使用寿命。
2、由于对更高可靠性的要求和制造技术的进步,工程系统变得越来越复杂,给传统的基于阈值的预测性维修方法带来很大的挑战,会增加维修决策难度。随着工程系统中组件数量的增加,需要通过增加神经网络的节点来应对庞大的组件数量,使得神经网络的隐藏层数和相关参数非常复杂,对数据量的要求很高,造成基于深度强化学习的单智能体模型收敛过程很慢,不能根据更新的退化模型及时调整维护策略。因此,开发一种水下生产控制系统智能维修决策方法及系统显得尤为必要。
技术实现思路
1、为克服现有的预测性维修的缺陷,本发明提供一种水下生产控制系统智能维修决策方法及系统。
2、为实现上述目的,按照本发明的一个方面,提供一种水下生产控制系统智能维修决策方法,包含五个大步骤:
3、s1:非线性维纳过程模型固定参数估计。考虑到工程系统性能退化的非线性特征,采用非线性维纳过程对工程系统的性能退化过程建模。基于系统的历史退化数据,根据极大似然算法估计非线性维纳过程模型的固定参数。
4、s2:基于卡尔曼滤波的漂移参数更新。利用卡尔曼滤波方法根据组件的现场退化数据在线更新漂移系数。
5、s3:组件剩余使用寿命预测。依据组件累计退化量变化情况,进行剩余使用寿命预测。剩余使用寿命是对未来工作时间的评估,指设备在当前时刻距离失效时刻的时间长度,其值由退化状态、时间和故障阈值计算得出。
6、s4:维修优化目标确定。水下生产控制系统全寿命周期内预测性维修优化的目标是在满足安全约束条件下实现运维成本最低。系统剩余使用寿命作为系统级维修决策的安全限制条件。系统的运维成本由各个组件在各个决策点的维修动作成本累加而成。
7、s5:基于多智能体深度强化学习的预测性维修优化。预测性维修决策模型包括多个智能体,每个智能体均基于一个独立的深度q网络模型决策,根据组件状态,即组件的累积退化量,对所对应组件的维修动作和输出所对应组件的维修动作q值。最后,基于维修动作q值并结合约束条件决策多组件系统中各个组件的维修动作。实现安全约束条件下实现运维成本最低的目标。
8、每个智能体以全寿命周期内运维成本最低的方式选择动作。智能体观察环境并根据观测进行动作,在动作之后得到奖励,同时进入下一个状态,智能体通过与环境的交互学习如何最大化奖励。一个智能体对应一个组件,根据系统状态和组件自身状态仅决策对应组件的状态。根据维修限制条件,对各个组件的维修动作进行再决策后组合成系统维修策略,以达到全寿命周期内运维成本最低的目标。系统维修策略会改变组件状态及系统状态,并产生相应的奖励。以深度q网络深度强化学习方法为基础,利用深度学习网络表征“状态”和“动作”组合到“反馈奖励”的映射。
9、深度q网络采用深度神经网络拟合动作价值函数q(s,a;w),w是神经网络训练的参数。在每个时间步t,由行为策略在观察环境s和采取行动a之后,实现奖励的最大总和。通过经验回放对数据进行随机化处理,消除观察序列中的相关性,使得在数据分布上平滑变化。在更新过程中,只更新评估动作价值函数q(s,a;w)的权重w,目标动作价值函数q*(s,a;w')的权重w'保持不变。在更新一定次数后,将更新过的评估函数的权重复制给目标网络,进行下一批更新,这样目标函数也能得到更新。
10、按照本发明的另一方面,一种水下生产控制系统智能维修决策系统,包括固定参数估计模块、漂移参数更新模块、组件剩余使用寿命预测模块、维修优化目标评价模块、预测性维修优化模块、维修优化结果输出模块。
11、漂移参数更新模块,包括数据采集单元和漂移参数计算单元。
12、维修优化目标评价模块,包括系统剩余使用寿命计算单元和维修成本计算单元。
13、相对于现有技术,本发明的有益结果是:结合深度学习和强化学习的深度强化学习算法用以维修决策,利用深度学习感知环境特征,利用强化学习方法求取最优策略,用于解决高维决策问题,使得维护操作可以自适应地计划,而不依赖于组件退化水平的固定阈值,实现自适应、灵活、无阈值的维护计划。延长了水下生产控制系统的使用寿命,降低了维修成本。
1.一种水下生产控制系统智能维修决策方法,其特征在于:包含五个大步骤:非线性维纳过程模型固定参数估计、基于卡尔曼滤波的漂移参数更新、剩余使用寿命预测、维修优化目标确定和基于多智能体深度强化学习的预测性维修优化;
2.根据权利要求1所述的水下生产控制系统智能维修决策方法,其特征在于:利用卡尔曼滤波方法根据组件的现场退化数据在线更新漂移系数;现场退化数据从主控站中获取;组件t时刻的状态空间方程如下式所示:
3.根据权利要求1所述的水下生产控制系统智能维修决策方法,其特征在于:水下生产控制系统全寿命周期内预测性维修优化的目标是在满足安全约束条件下实现运维成本最低;系统剩余使用寿命作为系统级维修决策的安全限制条件;水下生产控制系统中各个组件为串联关系,只要一个组件故障就会造成整个系统失效,因此,系统的剩余使用寿命由各个组件的剩余使用寿命决定;系统的剩余使用寿命计算如下式所示:
4.根据权利要求1所述的水下生产控制系统智能维修决策方法,其特征在于:预测性维修决策模型包括多个智能体,每个智能体均基于一个独立的dqn模型决策,根据组件状态,即组件的累积退化量,对所对应组件的维修动作和输出所对应组件的维修动作q值;最后,基于维修动作q值并结合约束条件决策多组件系统中各个组件的维修动作;其中,组件的剩余使用寿命作为维修决策约束条件;
5.根据权利要求1所述的水下生产控制系统智能维修决策方法,其特征在于:固定参数估计模块依据历史数据对非线性维纳过程模型中的固定参数进行估计;数据采集单元通过线缆与主控站相连,用于采集水下生产控制系统的监测参数;漂移参数计算单元通过线缆与数据采集单元相连,用于实现非线性维纳过程模型漂移系数的在线更新;组件剩余使用寿命预测模块通过线缆与漂移参数更新模块,用于实现组件累积退化量和剩余使用寿命的实时预测和在线更新;系统剩余使用寿命计算单元通过线缆与组件剩余使用寿命预测模块相连,用于计算系统剩余使用寿命;维修成本计算单元,用于计算水下生产控制系统的维修成本;预测性维修优化模块通过线缆与维修优化目标评价模块相连,用于进行满足维修优化目标条件下的预测性维修决策;维修优化结果输出模块通过线缆与预测性维修优化模块相连,用于输出维修决策结果。