车载边缘计算环境下基于近端策略优化的资源分配方法

专利检索2025-01-08  30


本发明属于车载边缘计算领域,具体涉及一种车载边缘计算环境下基于近端策略优化的资源分配方法。


背景技术:

1、随着移动通信网络以及物联网为中心的概念提出,许多新兴的应用得以萌生,如虚拟现实、高分辨率视频流、增强现实、电子医疗保健等,现在已经无处不在。但这些新兴应用通常会产生大量的计算任务,并且任务处理的实时性要求很高。与此同时,车载自组织网络发展迅速。它支持车辆间通信以及车辆与基础设施之间的通信,并收集道路和交通相关信息。然而,车载自组织网络不能完全接入互联网,这限制了其应用范围。为了解决车载自组织网络的网络互联网问题,研究人员提出了车联网概念。车联网应用对车载终端设备的计算能力要求比较高,单个用户车辆的计算能力一般难以满足需求,于是车载边缘计算框架被提出,车载边缘计算框架通过边缘计算网络提供算力,支撑起车联网终端设备对计算能力的需求。边缘服务器通常部署在车辆附近的路边单元或基站,用户车辆通过路边单元请求所需数据或者用户车辆终端设备将任务数据卸载至边缘服务器进行计算,这些方式都可以缓解车载终端设备对于算力的迫切需求。

2、在标准的车载边缘计算系统中,一般是车辆发出请求向边缘设备请求数据或者车辆将计算任务直接卸载到边缘服务器。但由于边缘服务器部署位置相对固定,大多数情况下边缘服务器的位置远离用户终端,加之回程链路的物理限制和网络条件等因素,最终导致无法预测的延迟。把无人机引入车载边缘计算中,将其作为通信中继为用户提供通信传输服务,或者利用无人机的计算能力辅助用户进行任务处理,以应对资源紧缺问题,能够有效解决传统车载边缘计算的短板。然而,无人机辅助的车载边缘计算环境中,依然存在着很多亟待解决的现实问题。例如,在上下班通勤的高峰期城市拥塞道路上存在堵车现象,造成大量的车辆聚集,用户车辆请求无法得到及时的满足,同时用户车辆激增的内容访问需求对服务延迟具有很高的敏感性。由于网络通信资源稀缺性,如果无人机的缓存命中率低下,大量内容的回传会加剧城市道路上网络通信负担。因此,合理分配城市上下班通勤高峰期道路附近的通信以及计算资源,同样具有挑战。尤其在雷达感知设备越来越普及的当下,频谱资源的合理分配更加值得关注。


技术实现思路

1、本发明提出了一种车载边缘计算环境下基于近端策略优化的资源分配方法,解决了现有技术的车载边缘计算中上下行通信链路质量不佳、用户车辆任务处理时延高和路边单元雷达感知互信息量低下的问题。

2、为解决上述技术问题,本发明提供了一种车载边缘计算环境下基于近端策略优化的资源分配方法,包括以下步骤:

3、步骤s1:建立时间片划分模型将时间片划分为上行链路通信时隙、下行链路通信时隙、车辆任务处理时隙和雷达感知时隙,基于时隙建立车辆与边缘服务器的通信模型、任务处理模型和雷达感知模型,所述通信模型用于计算车辆与边缘服务器之间的通信速率;所述任务处理模型用于分配车辆的计算任务;所述雷达感知模型用于计算车辆与边缘服务器之间的信息量大小;

4、步骤s2:以任务处理延迟最小化、通信速率以及雷达感知信息量最大化为目标建立联合优化目标函数以及相关约束条件;

5、步骤s3:采用近端策略优化算法对所述联合优化目标函数进行求解,获得车载边缘计算环境下的最优资源分配方案并反馈给车辆。

6、优选地,步骤s1中所述边缘服务器包括路边单元和无人机,所述通信模型包括用户车辆与路边单元之间的上下行链路通信、无人机与路边单元之间的上下行链路通信。

7、优选地,用户车辆与路边单元之间的上行链路通信的速率为:

8、

9、式中,是分配给车辆用于上行链路的频谱资源;pv是车辆的上行链路通信发射功率;hv_b是车辆上行链路通信的信道功率增益,σ是高斯白噪声的噪声功率;

10、无人机与路边单元的上行链路通信的速率为:

11、

12、式中,是分配给无人机用于上行链路的频谱资源;pu是无人机的上行链路通信发射功率;hu_b是无人机上行链路通信的信道功率增益;

13、用户车辆与路边单元之间的下行链路通信的速率为:

14、

15、式中,是分配给车辆用于下行链路的频谱资源;pb是车辆的下行链路通信发射功率,hb_v是车辆下行链路通信的信道功率增益;

16、无人机与路边单元之间的下行链路通信的速率为:

17、

18、式中,是分配给无人机用于下行链路的频谱资源;pu是无人机的下行链路通信发射功率,hu_b是无人机下行链路通信的信道功率增益。

19、优选地,步骤s1中所述任务处理模型将任务分配给车辆本地进行计算或卸载给路边单元进行计算;所述卸载给路边单元进行计算包括车辆卸载到路边单元进行计算或车辆卸载到无人机后转发至路边单元进行计算。

20、优选地,所述雷达感知模型的表达式为:

21、

22、

23、式中,γrad为路边单元分配给雷达用于感知的带宽资源;τrad为路边单元分配给雷达用于感知的时间;hb_v为路边单元到用户车辆的雷达探测信道的平均功率增益;gr表示接收机天线增益;gt表示雷达发射天线增益;σrcs为目标相对于雷达的有效截面;λ为雷达探测波长;h为无人机的离地高度。

24、优选地,步骤s2中所述联合优化目标函数的表达式为:

25、

26、

27、式中,ρ为卸载决策变量;τ为时隙分配策略;γ为频谱分配策略;value为单位时间片划分价值;θ为时隙划分的权重系数;为车辆的计算任务处理总时延。

28、优选地,步骤s2中所述约束条件的表达式为:

29、

30、

31、

32、

33、

34、

35、上式中,为车辆集合;为无人机集合;为路边单元集合;为分配给车辆卸载到路边单元的频谱资源;为分配给车辆卸载到无人机的频谱资源;为分配给无人机卸载到路边单元的频谱资源;γrad为路边单元分配给雷达用于感知的带宽资源;bw为通信频谱资源总和;tmin为回传计算结果需要的时间。

36、优选地,步骤s3中对所述联合优化目标函数进行求解的步骤包括:将所述联合优化目标函数转化为马尔科夫决策过程,采用近端策略优化算法对所述马尔科夫决策过程进行求解。

37、优选地,所述马尔科夫决策过程包括状态空间、动作空间、状态转移和奖励函数;

38、所述状态空间用sk表示:

39、

40、所述动作空间用ak表示:

41、ak={ρk,τk,γk};

42、所述状态转移根据状态sk找到当前最优动作ak=π(ak|sk),转移到下一个状态sk+1,其中π(ak|sk)表示在状态sk下执行动作ak的概率;

43、所述奖励函数用rk表示:

44、rk=valuek;

45、其中valuek为进入该状态后的奖励分数。

46、优选地,所述采用近端策略优化算法对马尔科夫决策过程进行求解的方法包括以下步骤:

47、步骤s31:初始化actor网络πold/new(θ)、critic网络v(θ)、车联网环境和经验池d,更新车联网环境参数为

48、步骤s32:判断当前迭代次数是否达到最大迭代次数,若当前迭代次数小于最大迭代次数,重复执行步骤s33至步骤s38,直到达到最大迭代次数;

49、步骤s33:更新时间片tslot下的车联网环境,将时间片tslot划分为n个时隙,其中每个时隙为ti,i∈(1,2,3...n);

50、步骤s34:获取网络环境信息sk,将sk输入actor-new网络πθ,根据动作空间构建正态分布,从正态分布中随机采样得到动作分布ak,获取下一个网络环境信息sk+1后计算奖励函数rk,在缓存中存储最终状态[(sk,ak,rk),...],将sk+1输入到actor-new网络,最终状态输入到critic网络中,并计算critic网络的损失函数;

51、步骤s35:若当前critic网络的更新次数等于经验池容量,则执行步骤s36;否则执行步骤s37;

52、步骤s36:将所有状态组合输入到critic网络中,计算优势函数和critic网络的损失函数,反向传播更新critic网络;将所有状态组合输入actor-new和actor-old网络,计算actor网络的损失函数,反向传播更新critic网络,更新actor-new的网络参数πnew(θ);

53、步骤s37:用actor-new网络的参数πnew(θ)更新actor-old网络的参数πold(θ);

54、步骤s38:判断此时i是否等于n,如果i小于n,执行步骤s34至步骤s37直到i等于n;

55、步骤s39:输出actor网络的参数,即为最优资源分配方法。

56、本发明的有益之处至少包括:

57、1、综合考虑时间片分配、网络通信、计算任务卸载、雷达感知质量等因素来构建模型,利用近端策略优化算法求解车载边缘计算环境中资源分配的全局最优解,使得用户车辆任务处理延时延、用户车辆与边缘服务器之间的上下行传输速率和雷达感知估计互信息达到最优;

58、2、采用时间片划分的方式,把时间片分为上行链路通信时隙、下行链路通信时隙、雷达感知时隙,通过这种时间片划分的方式,可以动态调节路边单元的功能倾向,保证通信质量的同时,又不会导致其他功能缺失;

59、3、采用融合环境感知能力和决策能力的近端策略优化算法,求解车载边缘计算中资源分配方法优化问题,其空间复杂度较低,能对车辆资源分配进行快速响应。


技术特征:

1.一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:步骤s1中所述边缘服务器包括路边单元和无人机,所述通信模型包括用户车辆与路边单元之间的上下行链路通信、无人机与路边单元之间的上下行链路通信。

3.根据权利要求2所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:用户车辆与路边单元之间的上行链路通信的速率为:

4.根据权利要求1所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:步骤s1中所述任务处理模型将任务分配给车辆本地进行计算或卸载给路边单元进行计算;所述卸载给路边单元进行计算包括车辆卸载到路边单元进行计算或车辆卸载到无人机后转发至路边单元进行计算。

5.根据权利要求1所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:所述雷达感知模型的表达式为:

6.根据权利要求1所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:步骤s2中所述联合优化目标函数的表达式为:

7.根据权利要求1所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:步骤s2中所述约束条件的表达式为:

8.根据权利要求1所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:步骤s3中对所述联合优化目标函数进行求解的步骤包括:将所述联合优化目标函数转化为马尔科夫决策过程,采用近端策略优化算法对所述马尔科夫决策过程进行求解。

9.根据权利要求8所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:所述马尔科夫决策过程包括状态空间、动作空间、状态转移和奖励函数;

10.根据权利要求8所述的一种车载边缘计算环境下基于近端策略优化的资源分配方法,其特征在于:所述采用近端策略优化算法对马尔科夫决策过程进行求解的方法包括以下步骤:


技术总结
本发明提供了一种车载边缘计算环境下基于近端策略优化的资源分配方法,包括以下步骤:建立时间片划分模型,将时间片划分为多个时隙,基于所述多个时隙建立车辆的与边缘服务器的通信模型、任务处理模型和雷达感知模型,所述边缘服务器包括路边单元以及无人机;以任务处理延迟最小化、通信速率以及雷达感知数据最大化为目标建立联合优化目标函数,并根据所述资源分配模型建立所述联合优化目标函数的约束条件;采用基于近端策略优化算法对所述联合优化目标函数进行求解,获得车载边缘计算环境下的最优资源分配并反馈给车辆。

技术研发人员:李春林,柴龙,吴建阳,龙柯君
受保护的技术使用者:武汉理工大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1148371.html

最新回复(0)