一种基于DDPG的5GNR资源调度方法

专利检索2025-04-24 38

本发明涉及一种基于ddpg的5g nr资源调度方法，属于无线通信。

背景技术：

1、具有时间敏感型流量的新兴应用，例如自动驾驶汽车、工厂自动化、和虚拟/增强现实等有着严格的服务质量qos要求，例如延迟、可靠性和抖动。因此5g和b5g的资源分配目标需要追求更高的传输速率、更低的时延。而现有的一些调度方法，例如比例公平、循环调度和最大吞吐量等，通常关注的是资源的公平分配、吞吐量最大化等，而对时延敏感性的保证较弱。最早截止期限优先算法可以根据任务的截止时间来确定任务的优先级进而维护一个稳定的队列，按照队列中数据包时延的截止时间调度分配传输所用的资源，但是这种实时调度方法存在两个明显问题，第一个问题就是在每次有新数据包请求过来的时候，需要打断原有最优策略的运行转而发送到期的数据包，导致资源效率下降。第二个问题就是存在任务饥饿的情况，按照截止期限的优先级调度，容易出现一些任务长时间等待资源，因为始终有新的时延敏感任务到达，而系统优先考虑已经到达的最紧急任务。这可能导致一些任务长时间无法得到满足，从而降低系统的公平性。

2、针对最早截止期限优先算法在时延敏感流量场景下调度所产生的问题现有文献提出利用深度强化学习去解决。强化学习可以将用户数据延迟时间，资源效率等融合构成收益函数，引导基站学习并收敛到收益最大的调度策略上来。但是传统的强化学习算法在其训练过程中一般只考虑当前时刻或前一时刻的动作(调度哪些用户)奖励(q值)，对于之前过去发生过的经验无法合理利用，所以其整个算法的收敛速度相对较慢。为了解决这个问题，所以在强化学习的基础上引入了深度学习，引入深度神经网络计算的同时引入经验回放池，将过去一段时间内的经验都存储起来用以训练q值计算网络，因此q值计算网络更准确，整个网络收敛更快。

3、近些年，已经有一些科研工作将深度强化学习应用在资源调度领域,比如有采用深度q网络(deep q network,dqn)算法来挖掘用户活动与资源分配之间的隐式关系，以提高网络资源分配的有效性和灵活性。dqn在执行动作时，必须预估每一个动作的q值(从而找出最大q值的动作来执行)，所以动作必须是离散有限的。因此当在调度用户并同时为调度到的用户分配资源时，由于资源是连续的，dqn就难以应对或收敛很慢，或者资源经过块化不连续，但是资源块和用户的排列组合，使得动作空间很大。也有结合深度确定性梯度算法(deep deterministic policy gradient，ddpg)，ddpg通过引入另外的深度神经网络来计算输出的动作值(比如用户的分配资源数)，从而解决了调度和资源分配同时进行的问题。

技术实现思路

1、本发明目的在于针对上述现有技术的缺陷和不足，提出了一种基于ddpg的5g nr调度方法，该方法将ddpg与专家知识结合来解决直接实现ddpg应用在通信调度场景中出现的理论推导问题。

2、本发明解决其技术问题所采用的技术方案是：一种基于ddpg的5g nr调度方法，该方法使用双重神经网络架构，其中动作和评论均使用双重神经网络架构(即online(训练)和target(目标)网络)，同时引入了经验回放机制，动作器与环境交互产生的经验数据样本存储到经验池中，抽取批量数据样本进行训练，在设计的调度过程中，共有k个用户，可分配的分组资源数量为n，每个用户会被分配nk(t)(nk(t)∈{0，n})份资源，包括如下步骤：

3、步骤1：针对5g时延敏感流量特性，考虑其调度要求，包括时延、抖动和可靠性等，建立对应的通信场景模型，设计对应的状态，动作，定义调度动作a(t)，信道状态s(t)，并定义做出调度动作之后的瞬时奖励r(t)，r(t)定义为用户在该时隙中成功接收的数据包的总数，为使发送并成功接收的数据包数目最大，于是定义长期奖励q为不同时刻瞬时奖励的加权平均，用q(·|θq)函数表示；

4、步骤2：根据状态s(t)动作器训练网络获取调度动作，确定每个用户所分配的分组资源，调度器通过评论家训练网络评价当前动作价值，即被选取动作的价值，动作器从环境中获取下一个状态s(t+1)以及环境反馈奖励r(t)，将所得四元组<s(t)，a(t)，r(t)，s(t+1)>存入经验存储器，直至经验池满，从中选取一批固定大小的元组作为训练样本进行训练并同时更新经验池；

5、步骤3：根据采取的元组<s(ti)，a(ti)，r(ti)，s(ti+1)>，(ti＜t)传入动作器和评论家进行训练，动作器目标网络估计下一个状态调度动作，之后根据评论家目标网络近似估计下一状态的长期奖励q(·|θq′)，并计算目标值y(ti)，之后评论家训练网络根据训练网络得到的q(·|θq)值，以最小化目标值和q(·|θq)值来训练网络参数，同时动作器根据评论家所传递的q(·|θq)使其最大化来更新动作器训练网络参数，同时评论家和动作器目标网络均采用软更新机制来更新目标网络参数；

6、步骤4：重复上述步骤2和步骤3，动作器与评论家网络收敛后，长期奖励将达到最大值，此时调度器根据状态所做出的调度动作实现最好的系统性能。

7、进一步地，本发明步骤1中5g nr调度系统的通信场景模型中，在第t个时隙分配给第k个用户的资源用nk(t)表述，k＝1，...，k，调度动作a(t)表示为(依赖状态s(t)和初始化神经网络参数θμ获取，s(t)定义为第t个时隙的归一化用户队头延迟以及信道的归一化信噪比)：

8、

9、

10、式(2)中分别表示最大hol延迟和信噪比；

11、式(1)中动作空间的大小仅与nk(t)和k的大小有关，假设nk(t)大小从0-n变化，对于k个用户而言，直接实现ddpg的调度动作空间的大小为(n+1)k，用表示动作空间大小，在大带宽大链接的网络中，即5g nr，值过大，会导致ddpg算法收敛速度减慢；

12、在调度过程中，我们需要确定调度器分配给每个用户的资源大小。假设在调度周期t内，无线信道是平坦衰落和准静态的，如果第k个用户被调度到，为了传输lk比特的资源时，需要的带宽为：

13、

14、式(3)中，w是每个rb的带宽，为信道色散，εk(t)为包错误概率(一个bk(t)错就算整个包错)；

15、

16、式(4)中，fq是q函数，φ(x)为标准正态分布；

17、假设为错包率上限，有：

18、

19、因此通过将式(3)带入(4)来满足(5)中的约束所需rb的最小数量，用表示，预先线下算出来。

20、调度器仅需要确定需要调度哪些用户，而不再计算所需的资源量。将调度操作修改为xk(t)，来表示第k个用户在第t个时隙是否被调度，如果第k个用户在第t个时隙没有被调度，那么xk(t)＝0，否则xk(t)＝1，此时将向该用户分配资源动作空间修改为：

21、

22、动作空间大小变为2k，这比直接的方式数量小。

23、从式(2)看出状态s(t)由两部分组成，分别是归一化的队头延迟和信噪比，a(t)的变化仅与s(t)、θμ相关，而分配给时间敏感业务的rb的总数n、每个rb的带宽w和每个tti的持续时间δt这些隐藏变量，不包括在ddpg的输入中。据3gpp的标准，这些隐藏变量在5g nr中是可变的；

24、为了提升算法的泛化能力，使用来去替换式(2)中的因为其依赖(4)和(5)中φk(t)，n，w，δt，这样，系统在第t个时隙的状态可以由式(7)给出：

25、

26、通过将替换之后，状态空间泛化了n，w，δt这些ddpg未输入的隐藏参数，所以再遇到隐藏参数发生变化的情况，就不再需要重新去训练调度器；

27、根据时延敏感流量的qos要求，先定义系统在第t个时隙中的总瞬时奖励为用户在该时隙中成功接收的数据包的总数，由r(t)表示：

28、

29、其中rk(t)是在第t个时隙中由第k个用户接收的数据包数；

30、

31、其中dk(t)∈[dmin，dmax]即满足防抖要求，dmin和dmax表示最小延迟界限和最大延迟界限，那么有否则在数据包被成功解码时有否则

32、调度的目的是使发送并成功接收的数据包数目最大，因此长期奖励q表示为不同时刻瞬时奖励的加权平均，定义为状态-动作价值函数：

33、

34、其中r(t+i)是第(t+i)个时隙中的瞬时奖励，γ是奖励折扣因子，γ的范围是[0，1]，当γ趋于0时，价值函数会集中于当前获得的奖励，当γ趋于1时，价值函数会将更多考虑后续步骤中的奖励。即γ的决策倾向于短期奖励或长期奖励；

35、有了长期奖励的定义那么对于最大化调度器的长期回报的最优控制问题便能够使用式(11)来表示：

36、

37、根据(4)中的解码错误概率的定义，有通过使用1-εk(t)去替换(9)中的那么第k个用户的奖励用如下式来表达：

38、

39、从式(12)看出，在可靠性越接近于100％，也就是奖励越接近1，而由于奖励函数的式(10)定义是加权平均，那就会导致在通过梯度策略去对奖励q求最大值的过程中越来越慢，所以训练网络参数也会愈来缓慢，导致ddpg的训练效率越低，定义第t个时隙中第k个用户的回报为：

40、

41、利用(13)中的定义，通过对做数学上的转换得到通过将从接近1的数值转变为趋于0，再对其取对数，所以变化范围明显增大，因此的期望比的期望对调度策略将会更加敏感。

42、进一步地，本发明步骤2包括：

43、在每个时隙中，动作器训练网络观察当前信道状态并根据生成确定调度动作，调度器对不同用户分配对应资源，其中为噪声，增加噪声将会增加学习过程的随机性，会让动作器具有一定的探索能力，评论家训练网络当给定动作a(t)和状态s(t)后，将会输出当前动作状态函数q(s(t)，a(t)|θq)；

44、当在第t个时隙采取调度操作a(t)后，动作器训练网络获得瞬时奖励r(t)和下一状态s(t+1)，当回放池未满时，会将元组存储在大小为的经验回放器中作为训练样本，而当回放器空间存储满后，将从回放器中随机抽取，保证时刻不连续，去除相关性，一批大小为的t(ti)＝<s(ti)，a(ti)，r(ti)，s(ti+1)>，(ti＜t)元组将其给到动作器和评论家，然后在训练过程中也会将新产生的元组存放至经验池中，并将已抽取的元组淘汰。

45、进一步地，本发明步骤3包括：

46、评论家目标网络会计算出当前状态奖励和估计的未来状态奖励加权期望：

47、y(ti)＝r(ti)+γq(s(ti+1)，q(s(ti+1)，μ(s(ti+1)|θμ′)|θq′))|θq′)#

48、评论家训练网络输出当前时刻动作-状态的q值函数q(s(ti)，a(ti))，用于对当前调度动作的评价。所以评论家的目标应是最小化目标值y(ti)和当前动作状态下期望值q(s(ti)，a(ti))之间的差值，公式定义为：

49、min[y(ti)-q(s(ti)，a(ti))]#

50、然后通过最小化目标损失值(均方误差损失)，来更新评论家训练网络(训练参数θq)，即：

51、

52、对于动作器训练网络，最优策略是让奖励期望q值最大化，所以动作器训练网络参数的更新是依赖于评论器的，就需要保证下边状态损失函数在训练过程中最小化(以此更新动作器训练网络参数θμ)，即：

53、

54、最后，对于目标网络的更新，ddpg也是通过软更新机制，每次学习的时候更新部分参数，保证参数的缓慢更新，从而提高稳定性：

55、θμ′＝τθμ+(1-τ)θμ′

56、θq′＝τθq+(1-τ)θq′

57、其中，τ是软更新速率，ddpg使用四网络，动作-评论均为训练加目标网络，能够实现软更新，每次在训练过程中保证了参数的稳定更新，避免了因为只有动作和评论家目标网络可能出现网络波动剧烈的情况导致自举现象，从而导致学习过程坍塌。

58、进一步地。本发明步骤4包括：

59、从经验存储器存储满之后，重复上述步骤2及3至动作网络和评论家网络参数趋于稳定，即动作器形成确定策略网络，不受概率影响，神经网络参数确定，输入同样的状态，输出的动作一定一致。评论家网络输出奖励期望值尽量大。

60、有益效果：

61、1、本发明能够在原有ddpg算法基础上结合专家知识，大量减少动作空间，修改状态空间并提升状态泛化能力，其算法收敛时间大大缩短，从而提高算法收敛速度。

62、2、本发明利用奖励重塑的方法，不仅提高了每个用户估计动作值的准确性和系统的长期吞吐量，而且解决了训练过程中可能出现的坍塌问题并同时提高了系统的长期奖励。

技术特征：

1.一种基于ddpg的5g nr资源调度方法，其特征在于，所述方法中使用双重神经网络架构，其中动作和评论均使用双重神经网络架构(即online(训练)网络和target(目标)网络)，同时引入了经验回放机制，动作器与环境交互产生的经验数据样本存储到经验池中，抽取批量数据样本进行训练，在设计的调度过程中，共有k个用户，可分配的分组资源数量为n，每个用户会被分配nk(t)(nk(t)∈{0，n})份资源，包括如下步骤：

2.根据权利要求1所述一种基于ddpg的5g nr资源调度方法，其特征在于，所述步骤1中5g nr调度系统的通信场景模型中，在第t个时隙分配给第k个用户的资源用nk(t)表述，k＝1...，k，调度动作a(t)表示为(依赖状态s(t)和初始化神经网络参数θμ获取，s(t)定义为第t个时隙的归一化用户队头延迟以及信道的归一化信噪比)：

3.根据权利要求1所述一种基于ddpg的5g nr资源调度方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述一种基于ddpg的5g nr资源调度方法，其特征在于，所述步骤3包括：

5.根据权利要求1所述一种基于ddpg的5g nr资源调度方法，其特征在于，所述步骤4包括：

技术总结
本发明公开了一种基于DDPG的5G NR资源调度方法，包括：(1)针对5G时延敏感流量特性，建立对应的通信场景模型，并表示信道状态集合、调度动作集合，定义动作奖励；(2)根据动作器获取调度动作，与环境交互获取奖励以及下一时刻状态，并将信息存储至经验回放器；(3)从回放池中抽取训练样本，根据评论家计算目标值，并与当前奖励期望求差，利用最小损失函数更新网络参数，同时动作器根据当前奖励期望更新网络参数；(4)重复步骤(2)和步骤(3)，算法收敛后用户的Q值等于真实动作价值，此时基站调度步骤(2)选择的用户就能实现最高的系统性能。本发明解决5G NR系统调度，实现更快的收敛速度，能确保系统的长期性能不弱于已有的调度算法。

技术研发人员：潘甦,徐文鹏
受保护的技术使用者：南京邮电大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1152898.html

专利

最新回复(0)