本发明涉及无线通信网络与车联网领域,具体为一种基于maddpg的空地车联网能耗最低卸载方法。
背景技术:
1、随着5g和车联网(iov)技术的飞速发展,汽车已经不再仅仅是传统的交通工具,而是变成了人们的移动生活空间。这一变革带来了自动驾驶、在线娱乐等个性化服务的兴起,使汽车处理的任务变得日益复杂,对于自动驾驶等低延迟应用的要求也变得更加苛刻。在这种情况下,仅仅依靠车载处理能力已经无法满足需求。
2、为了解决这些挑战,空地车辆协同计算网络(avc2n)应运而生。该网络由路边单元(rsu)组成,这些rsu位于道路旁,拥有丰富的计算资源,周围还有车辆提供车辆协同计算(vcc),而无人机的部署则进一步扩大了网络的覆盖范围。这种灵活而成本可控的结构为新兴应用提供了更广阔的发展空间。
3、然而,现有关于空地车辆协同计算网络中任务卸载的研究工作通常忽视了5g快速发展所引发的urllc通信要求,同时也未充分考虑车辆和无人机移动所导致的动态复杂通信环境。为应对这些挑战,本发明提出了基于maddpg的空地车联网能耗最低卸载方法,充分考虑了无人机轨迹、任务卸载决策和资源分配之间的综合优化。这一方法旨在最小化系统总能耗,以满足对低延迟通信的需求。同时最大程度地提高能源效率,降低碳排放,提高车辆通信的质量和可靠性。
技术实现思路
1、本发明公开了一种基于maddpg的空地车联网能耗最低卸载方法。
2、本方法主要针对由uv,uav,rsu,cv和no组成的车地空联合计算网络。所述方法的步骤如下:步骤一、根据网络信息构建满足urllc通信要求的系统能耗总目标函数,并将问题拆解为传输能耗和计算能耗优化问题;步骤二、将传输成本问题表述为离散时间马尔科夫决策过程(mdp),设置状态、动作空间和奖励;步骤三、为每个uv,uav和no搭设本地的ddpg网络模型;步骤四、设置集中离线训练参数和训练方法;步骤五、针对计算能耗优化问题,我们利用贪婪算法解决。具体过程如下:
3、本发明针对的空地车辆联网(avc2n)包含k个cv,n个rsu,m个uav和i个uv。本文采用时隙模型,时间总长度包含t个时隙。uv在每个时隙均可以选择在其通信范围内的任意边缘服务器进行卸载计算。我们采用二进制卸载方案,设置卸载变量为bi,j(t),bi,j(t)=1则表示在t时隙内,vi选择将任务卸载到服务器sj,bi,j(t)=0则反之。
4、结合卸载过程中上传,计算和反馈的能耗,我们可以得出在一个时隙内vi卸载所产生的能耗总量如下:
5、
6、通过考虑卸载决策,无人机飞行轨迹优化和信道计算资源优化,并且满足urllc通信要求下最小化系统总能耗。因此,问题可表述如下:
7、
8、
9、
10、
11、
12、
13、
14、c7-c9:无人机飞行约束
15、c10-c12:urllc约束
16、其中,优化变量为任务卸载决策,无人机轨迹规划和频谱和计算资源分配;c1和c2指卸载决策约束,c3和c4为计算资源分配约束,c5和c6为信道资源分配约束,c7到c9为无人机飞行约束,c10到c12为urllc约束。
17、首先,我们为空地车联网系统设计一个传输能耗优化方法,即对和的联合优化方法。由于考虑到车辆和无人机每时隙的移动,环境中gsi存在动态不确定性,传统的方法无法有效解决。我们可以通过将其建立成离散时间的马尔科夫决策过程,并利用maddpg的方法进行学习策略。马尔科夫决策过程的表示如下:
18、1)states:在第t个时隙内,环境中各个设备的位置信息,uv需要上传的任务量和总信道资源共同组成状态信息
19、2)actions:在第t个时隙内,uv进行卸载决策的选择其中表示uv选择卸载至sj的概率。uav进行飞行轨迹的策略选择aj(t)={lj(t),θj(t)},其中lj(t)和θj(t)分别是飞行距离和飞行角度。no对所有uv进行信道资源的分配
20、3)各个智能体进行动作选择后即可取得各自的及时奖励。由于算法考虑在满足urllc约束下的传输能耗最低,则奖励可以表示为:
21、
22、式子中除能耗外部分为urllc约束的虚拟队列稳定函数,其大小随任务积压量的增大而增大。
23、尽管智能体可以通过获取状态s(t)选择动作进行学习,但在实际场景下,各设备很难获取到完整的状态信息。各智能体需要通过自身可以获得的局部状态,即观察值进行动作选择。同时信道资源分配对卸载有不小的影响,三类智能体的状态空间体量巨大,收敛速度缓慢。因此本文采取一种双层学习框架,先由uv和uav进行卸载决策和飞行轨迹的选择,随后no根据uv的选择进行信道资源的分配,可以有效增加收敛速度。各类智能体的观察值表示如下:
24、1)对uv而言,观察到的信息有需要卸载的任务量和自身位置,即oi(t)={xi(t),yi(t)}(i∈[1,i])
25、2)对uav而言,观察到的信息只有自己所处位置信息,即oj(t)={ωj(t)}(j∈[i+1,i+m])
26、3)对no而言,可以获取uv的观察,决策和环境的总信道资源信息,即
27、在每个智能体中,均采用ddpg的深度强化学习的网络模型。采用actor-critic方法,在智能体中存有四个神经网络,分别为当前动作和评判网络和目标动作和目标评判网络。以uav智能体为例,其中动作网络利用策略πj选择当前动作,而评价网络负责计算q值评价动作,q值函数如下:
28、
29、两个当前网络利用梯度下降法进行更新参数:
30、
31、
32、而目标网络则每隔一段时间进行软更新,可以提高学习的稳定性
33、
34、
35、在离线训练阶段,每个智能体不光可以获取自身的观察信息,也可以获取到其他智能体的观察值,汇总成当前状态值。智能体可以根据当前状态值进行神经网络的更新和策略的学习。有效提高的学习精准度和效率。同时在学习结束实际使用网络时,无需获取其他智能体的观察值便可进行策略选择。
36、其次,我们采用一种贪婪算法解决计算能耗优化问题。我们对每个边缘服务器设定资源初始值,并计算每个任务计算产生的能耗目标值。优先将足够资源分配给目标值最大的任务,随后更新资源值并再次循环。直到资源分配完毕或已无任务。
37、本发明的技术方案具有以下优点:
38、本发明公开了一种基于maddpg的空地网络任务卸载方法。本发明综合考虑了任务卸载,无人机飞行轨迹和资源分配优化,以达到卸载网络系统能耗最小化。本发明能够有效的应对车辆和无人机移动所导致的动态复杂通信,协同优化网络中多类资源和变量,在满足通信urllc约束的条件下实现对卸载网络整体的能耗控制。
1.本发明公开了一种基于maddpg的空地车联网能耗最低卸载方法。本方法主要针对由用户车辆(user vehicles,uv),无人机(unmanned aerial vehicles,uav),单元基站(roadside units,rsu),合作车辆(cooperative vehicles,cv)和网络运营商(networkoperator,no)组成的空地车联合计算网络。所述方法的步骤如下:
2.根据权利要求1,所述的基于maddpg的空地车联网能耗最低卸载方法,步骤1中的满足urllc通信要求的系统能耗总目标可描述如下:
3.根据权利要求1所述,提出一种基于maddpg的任务卸载方法,其特征在于:uv和uav智能体根据自身获取的观察信息进行卸载决策和飞行动作选择,no根据uv的观察信息,决策和环境信道资源总量进行信道资源分配的决策。所有智能体通过与其他智能体和环境交互学习到最佳的网络能耗优化策略;可以在满足通信urllc约束的条件下有效的应对车辆和无人机移动所导致的动态复杂通信,实现对卸载网络整体的能耗控制。