一种基于元强化学习的边缘计算自适应任务编排调度方法

专利检索2026-06-22 7

本发明属于移动边缘计算的，具体涉及一种基于元强化学习的边缘计算自适应任务编排调度方法。

背景技术：

1、移动互联网技术的发展促进了增强现实、虚拟现实、人脸识别和移动医疗等一系列创新应用的诞生和发展。相比于传统应用，这些不断涌现的业务新形态不仅对服务资源算力和存储力的需求大幅增加，并且对服务质量提出了更高的要求。尽管云计算的出现解决了海量服务资源的供给问题，但云端(用户)之间产生的巨大网络流量，会给上行链路和下行链路带来沉重的负担，导致服务高延迟，最终影响服务质量。为此，研究者提出了移动边缘计算(mec)的概念。

2、mec将计算和存储能力推向网络边缘，在更靠近终端用户和移动设备侧实现计算密集型任务卸载，实现更高效的数据处理和分析，从而减少对云数据中心的依赖。mec实现了低延迟和高带宽的处理和存储，有助于增强数据的安全和隐私性，这对于提升移动应用的服务质量至关重要。

3、面对海量移动应用，mec相对于集中式云计算架构具备诸多优势。然而，网络边缘呈现出设备数量多、用户移动性高、应用异构、流量间歇性的动态环境。在这样的环境下，边缘计算经常会出现资源分配不平衡的情况，从而导致任务失败并影响系统性能。因此，mec的核心问题仍然包括任务的编排调度。此问题可以定义为确定边缘计算系统中每个卸载任务的目标计算单元。一个合理的任务编排调度方法可以平衡任务负载，提升系统性能并提高服务质量。

4、传统的启发式算法或基于规则的算法很难在动态的边缘计算环境发挥最佳作用。因此不少学者引入智能算法试图从环境/历史中学习最优策略。其中，基于深度强化学习的智能编排算法取得了不错的效果。然而，深度强化学习的训练过程通常依赖于大量与特定环境交互所收集的数据。当面对新环境或意外扰动时(例如边缘服务器性能变化、边缘服务器故障、网络重大变化等情况)，已经训练好的模型无法达到特定环境中所取得的优秀性能。在这种情况下，只能通过重新训练模型来适应新环境，但这既需要大量数据，又非常耗时，从而削弱了边缘计算的整体性能。此外，当系统中存在边缘服务器处于故障、离线或其它不可预期的情况时，智能算法的决策模型将无法避免把任务编排调度到这种不可用的服务器，从而增加了任务执行的失败率。

5、综上，发明提出一种能够有效处理复杂且高维的任务编排问题，并且能够快速适应动态边缘环境的方法，该方法具备适应性和鲁棒性，能够在新环境中快速调整策略，同时能够有效应对边缘服务器的故障、离线和其它不可预测的情况，以提高边缘计算的整体性能和服务质量。

技术实现思路

1、本发明的目的是针对现有技术的不足而设计的一种基于元强化学习的任务编排调度方法。该方法针对欧洲电信标准化协会(etsi)提出的3层架构mec作为应用场景，利用原始策略梯度vpg算法来处理高维且复杂的任务编排调度问题，并通过元强化学习算法赋予模型快速适应动态环境的能力。在编排器中设计了多个模块和组件，并使它们相互协作，实现了所提出方法的有效运行。

2、本发明的具体包括如下步骤：

3、步骤s1、建立具有马尔可夫决策过程的任务编排决策模型：

4、具有马尔可夫决策过程的任务编排决策模型ti＝<s，a，p，r，γ>；其中s是状态空间，a是动作空间，p是状态转移函数，r是奖励函数，γ是折扣因子。

5、根据etsi提出的mec的3层架构，将边缘计算系统定义为一组由e＝{e1，e2，…，ei，…，ex}表示的边缘服务器，一组由c＝{c1，c2，…，ci，…，cy}表示的云服务器，一组由m＝{m1，m2，…，mi，…，mz}表示的移动用户和一组由j＝{j1，j2，…，ji，…，jn}表示的被卸载任务，其中x表示边缘服务器的数量，y表示云服务器的数量，z表示移动用户的数量，n表示被卸载任务的数量。

6、将任务详细描述为ji(ins，core，mem,stg，up，down，deadline)，其中ji.ini，ji.core，ji.mem，ji.stg，ji.up，ji.down，ji.deadline分别表示任务的百万条指令数、任务所需cpu核心数、任务所需内存(ram)量、任务所需存储(disk)量、任务的数据上传量、任务的数据下载量、任务的截止时间。

7、将边缘服务器和云服务器虚拟化出的vm资源详细描述为e-vmi,j(mips，core，mem,stg)和c_vmi,j(mips，core，mem,stg)，其中e_vmi,j.mips，e_vmi,j.core，e_vmi,j.mem，e-vmi,j.stg分别表示ith台边缘服务器jth台vm的处理速度(mips)、cpu核心数、内存(ram)量、存储(disk)量，而对于c_vmi,j的解释同理(c_vmi,j.mips，c_vmi,j.core，c_vmi,j.mem，c_vmi,j.stg分别表示第i台云服务器第j台vm的处理速度(mips)、cpu核心数、内存(ram)量、存储(disk)量)。

8、考虑任务的传输时延和处理时间，同时忽略任务编排决策的延迟，因为做出决策的时间很短。因此任务ji的总时延ti，total＝ti，transmission+ti，process；

9、其中ti，process是任务ji在相应的边缘服务器或云服务器的处理时间：

10、

11、其中ji.ini是完成任务ji所需的cpu周期数，e_vmi,j.mips和c_vmi,j.mips分别表示边缘服务器和云服务器的vm的处理速度，ti，wait表示等待处理的时间。

12、ti，transmission是任务ji在整个传输过程中所耗时间，通过考虑任务上传和下载的数据量来特别处理传输时延：

13、ti，transmission＝ti，wlanup+ti，wlandown+ti，manup+ti，mandown+ti，wanup+ti，wandown；

14、

15、具体来说，其中，bwwlan，bwman，bwwan分别表示局域网、城域网、广域网中分配的带宽，ti，wlanup和ti，wlandown分别表示任务ji在局域网中的上传和下载时延，ti，manup和ti，mandown分别表示任务ji在城域网中的上传和下载时延，ti，wanup和ti，wandown分别表示任务ji在广域网中的上传和下载时延，si∈{1，2，3}分别表示任务ji在本地边缘服务器执行、在邻居边缘服务器执行、在云服务器执行。

16、任务编排决策模型总的优化目标是在边缘计算环境中通过最小化任务失败率和任务完成时间来最大化服务质量。任务失败率任务平均完成时间其中，n表示总任务数，err(i)∈{1，0}分别表示任务ji是否执行失败，suc表示执行成功的任务数量，并且执行失败的任务的总时延不计入m。故总优化目标表示为

17、其中，ωf和ωm分别是任务失败率f和任务平均完成时间m的权重，用于调整这两个指标在qos中的相对重要性，norm(m)用于对任务平均完成时间m进行归一化。

18、在定义奖励函数时应综合考虑任务完成时间和任务是否执行成功，以最大化qos评估指标。进一步的，即时奖励函数其中，ti，total是任务ji的总延迟(完成时间)，总延迟越小，获得的即时奖励就越大。

19、步骤s2、训练元策略参数θ，使用原始策略梯度vpg进行策略学习和参数更新，使用元学习maml对元策略进行更新和优化。具体步骤如下：

20、s201：通过编排器的相关监控模块获取当前环境的状态信息；

21、s202：从任务分布中随机采样n个训练任务，并随机初始化元策略参数θ。如果元策略参数经历过更新，则无需初始化；

22、s203：使用原始策略梯度vpg进行策略学习和参数更新：在每个训练任务中，通过使用任务的样本数据和当前的元策略参数θ进行一次或多次梯度更新，得到一组不同的策略网络参数[θ′1，θ′2，...，θ′n]；具体为：

23、通过使用三层全连接神经网络来拟合任务编排策略函数，来有效求解马尔可夫决策过程，并实现在给定状态下选择最优动作的决策过程。

24、s204：使用元强化学习maml对元策略参数θ进行更新和优化；

25、s205：多次重复s202-s204，逐渐获得一个具有强泛化能力的元策略参数θ。

26、步骤s3、训练任务编排决策模型，具体步骤如下：

27、s301：用步骤s2训练好的元策略参数θ来初始化任务编排决策模型的参数；

28、s302：通过编排器的相关监控模块获取当前环境的状态信息，环境的状态信息包括云边服务器状态、网络状态和被卸载任务的属性信息；

29、s303：对任务编排决策模型的参数进行数次梯度更新，使得任务编排决策模型逐渐适应当前环境。

30、步骤s4、当感知到环境变化时，执行s3重新训练决策模型，环境变化包括边缘服务器性能变化、边缘服务器故障和网络重大变化。若环境无变化，则进入下一步。

31、步骤s5、通过编排器的相关监控模块获取当前状态向量，通过编排器的心跳检测组件获取边缘服务器的可用性，并标记离线或故障服务器，并返回一个描述边缘服务器可用性的二元数组。同时，将当前状态向量，输入到经步骤s3训练后的任务编排决策模型中，得到目标服务器概率分布；检查有关服务器可用性的二元数组，基于概率分布和可用性数组来选择目标服务器。具体为：

32、通过不同的监控模块收集相关信息，将收集的所有信息组合成模型所需的当前状态向量；同时，编排器的心跳检测组件间歇性地发送虚拟任务给所有边缘服务器，对离线或发生故障的服务器进行标记，并返回一个描述边缘服务器可用性的二元数组；将当前状态向量输入到任务编排决策模型中，会获得可执行当前任务的不同服务器的概率分布，其中不同的概率值对应着不同的服务器偏好；服从此概率分布进行随机抽样选出目标服务器，并检查有关服务器可用性的二元数组，若目标服务器未被标记，则对应任务会被编排调度到此服务器，否则，会被编排调度到环境中工作负载最小的边缘服务器。

33、本发明具有的有益效果是：

34、1、本发明具备足够的自适应性，能够动态适应边缘环境的变化并及时进行策略调整。

35、2、通过元强化学习算法提高算法的学习效率和系统性能，从而在动态的边缘环境中，实现高效地任务编排调度。

36、3、本发明在每个决策阶段，综合考虑任务属性、网络属性和服务器属性，以更好地利用网络和计算资源，并高效地确定每个卸载任务的最佳目标计算单元。这使得本发明能够有效降低任务失败率和任务完成时间，从而显著提高任务执行效率和服务质量。此外，基于概率分布和可用性数组来选择目标服务器，进一步提高了方法的鲁棒性，避免了将任务编排调度到异常服务器上的情况。

技术特征：

1.一种基于元强化学习的边缘计算自适应任务编排调度方法，其特征在于：

2.如权利要求1所述的基于元强化学习的边缘计算自适应任务编排调度方法，其特征在于：所述的环境的状态信息包括云边服务器状态、网络状态和被卸载任务的属性信息。

3.如权利要求1所述的基于元强化学习的边缘计算自适应任务编排调度方法，其特征在于：所述的步骤s203具体为：通过使用三层全连接神经网络来拟合任务编排策略函数，来有效求解马尔可夫决策过程，并实现在给定状态下选择最优动作的决策过程。

4.根据权利要求1所述的一种基于元强化学习的边缘计算自适应任务编排调度方法，其特征在于：所述的步骤s5具体为：通过不同的监控模块收集相关信息，将收集的所有信息组合成模型所需的当前状态向量；同时，编排器的心跳检测组件间歇性地发送虚拟任务给所有边缘服务器，对离线或发生故障的服务器进行标记，并返回一个描述边缘服务器可用性的二元数组；将当前状态向量输入到任务编排决策模型中，会获得可执行当前任务的不同服务器的概率分布，其中不同的概率值对应着不同的服务器偏好；服从此概率分布进行随机抽样选出目标服务器，并检查有关服务器可用性的二元数组，若目标服务器未被标记，则对应任务会被编排调度到此服务器，否则，会被编排调度到环境中工作负载最小的边缘服务器。

技术总结
本发明公开了一种基于元强化学习的边缘计算自适应任务编排调度方法，本发明利用原始策略梯度来处理高维且复杂的任务编排调度问题，通过元强化学习算法赋予模型快速适应动态环境的能力，基于概率分布和可用性数组来选择目标服务器，避免了将任务编排调度到异常服务器；同时克服了应用元强化学习时的动态环境敏感性，提高了方法整体的鲁棒性。本发明与现有技术相比，降低了任务失败率和任务完成时间，提高了系统稳定性，实现了负载平衡并且能够更好地适应动态的边缘计算环境，从而提高服务质量。有效地解决了大多数智能编排调度算法训练数据需求大、学习次数多、成本高和适应性差等问题，实现在动态边缘计算环境中的高效编排调度。

技术研发人员：王奔,杨根源,李文娟,吴吉义,孙水发
受保护的技术使用者：杭州师范大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1164235.html

专利

最新回复(0)