本发明涉及区块链(blockchain)驱动的多接入边缘计算(mobile edgecomputing,mec)系统的联合优化,具体涉及协同计算资源分配与接入控制的联合优化,属于通信。
背景技术:
1、目前,物联网(internet ofthings,iot)技术的迅猛发展使各类设备实现了深度互联。大数据和云计算的不断进步为物联网提供了更强大的数据处理和存储能力。结合人工智能,物联网应用广泛渗透于智能城市、智能健康、智能制造等领域,为这些领域提供了高效的解决方案。作为云计算的延伸和补充,mec技术在边缘节点部署计算和缓存资源,使得物联网设备能够执行计算密集型和资源密集型应用程序,从而降低了任务处理的延迟以及能源消耗。通过在各种场景下部署mec服务器,物联网设备能够提供可靠的通信和高效的任务处理服务。
2、由于将区块链赋能mec时,需要解决一些挑战。
3、1)能耗及设备寿命问题
4、在结合mec和区块链系统时,由于区块链共识机制的计算密集性,加上边缘设备通常具有有限的能源资源,这导致高能耗。边缘设备的频繁参与共识过程和数据存储将耗尽它们的电池,对于移动设备或电池供电设备来说,这会限制其可靠性和使用寿命。此外,为了保持mec和区块链系统的稳定运行,设备需要频繁充电或更换电池,增加了维护成本和不便。边缘设备通常具有有限的资源和寿命,而区块链的数据存储和计算需求加速设备的磨损,缩短设备的使用寿命。区块链要求较高的写入和存储操作,这导致设备的性能下降,甚至完全失效。因此,mec系统中频繁的区块链交易和数据存储会加剧设备的磨损,限制了边缘设备的可靠性和持久性。
5、2)处理能力问题
6、边缘设备的有限处理能力无法满足区块链共识和数据处理的要求。区块链的计算密集性要求较高的处理能力和存储资源,然而,边缘设备通常只有有限的计算能力。这导致区块链操作的延迟增加,性能下降,甚至任务无法完成。边缘设备处理能力差的限制影响到实时性要求高的应用程序的有效运行。
7、3)信任缺失问题
8、跨运营商之间的信任问题是实现mec和区块链整合的关键挑战。边缘计算环境涉及多个设备和运营商,数据交换和共享涉及多方。然而,不同运营商之间缺乏信任阻碍数据的安全传输和存储。缺乏统一的信任机制和标准导致数据泄露、篡改或恶意攻击的风险。解决这个挑战需要建立跨运营商间的安全信任框架,确保数据的安全性和隐私保护。
9、4)动态优化问题
10、在基于区块链的mec系统场景中,环境通常具有高度动态性,并且目标通常被定义为长期目标。在这种情况下,我们需要设计性能更高的算法,以实现目标优化,同时具有低复杂度和良好的性能。
11、通过上述分析,现有技术存在的问题及缺陷为:现有文献没有考虑到计算资源分配和用户接入控制的问题,以及在区块链赋能mec的场景中其他设备往往具有高动态性,这对算法提出更高的性能,因而难以求解。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种区块链驱动的边缘计算系统联合优化方法。
2、本发明是这样实现的,一种区块链驱动的边缘计算系统联合优化方法,包括以下步骤:
3、s101、系统初始化,包括主actor和critic网络的参数θ和w,目标actor和critic网络的参数θ′=θ和w′=w,回合数ep,最大训练步数tmax,初始化critic和actor网络对应的学习率α和β,折扣因子γ,初始化回放冲区大小d、mini-batch的大小m、和用于动作探索的ou噪声ξm;初始化网络布局参数,如iot设备数量i、基站数量j等任务参数。
4、s102、智能体与环境互动。在每个周期开始时,初始化系统状态s(t)。主actor基于当前策略生成动作,并通过添加噪声以促进探索性能。
5、s103、智能体执行生成的动作,根据执行的动作获得即时奖励,并将环境状态转移到下一个状态。
6、s104、将当前经验存储到经验回放缓冲区。若缓冲区已满,则删除最旧的经验以腾出空间。
7、s105、更新主actor网络和主critic网络。主actor网络根据当前经验数据更新参数,同时主critic网络评估动作效果。
8、s106、根据td目标和critic网络预测的q值计算critic网络的损失函数,从经验回放缓冲区中抽样小批量经验,用于更新目标actor和critic网络。
9、s107、基于小批量经验更新目标actor和critic网络的参数。
10、s108、根据更新的主actor和critic网络参数更新目标actor和critic网络参数。
11、s109、重复迭代训练,根据各状态下相应动作q值选择最优动作,获得最大收益,最终得到最优的计算资源分配和接入控制优化策略。
12、进一步的,所述s102、智能体与环境互动。在每个周期开始时,初始化系统状态s(t)。主actor基于当前策略生成动作,并通过添加噪声以促进探索性能中的状态表示为:
13、s(t)={d(t),c(t),r(t)},
14、其中表示任务在时隙t的输入数据大小;表示任务在时隙t的任务处理强度;表示任务在时隙t的传输速率。主actor基于当前策略生成动作,动作表示为:
15、a(t)={f(t),a(t)},
16、其中计算资源分配表示为边缘服务器的计算资源分配为区块共识问题以及用于区块生成的计算资源分配ue的接入控制策略
17、进一步的,所述s103:智能体执行生成的动作a(t),根据执行的动作获得即时奖励,并将环境状态转移到下一个状态s(t+1)中奖励reward的计算公式如下:
18、
19、上式中代表系统所有设备的长期平均能耗也就是我们的目标函数。
20、进一步的,所述s105:更新主actor网络和主critic网络。主actor网络根据当前经验数据更新参数,同时主critic网络评估动作效果。通过随机抽样小批量的经验数据<sm,am,rm,sm+1>,m∈{1,...,m}更新θ。通过梯度上升更新当前策略网络如下:
21、
22、进一步的,所述s106:根据td目标和critic网络预测的q值计算critic网络的损失函数,从经验回放缓冲区中抽样小批量经验,用于更新目标actor和critic网络。目标td可由下式给出:
23、
24、损失函数可以由下式给出:
25、
26、损失函数的梯度可以由下式给出:
27、
28、然后通过梯度下降更新主critic网络当前价值网络的参数w如下
29、
30、进一步的,所述s108:根据更新的主actor和critic网络参数更新目标actor和critic网络参数的更新公式如下:
31、θ′=ω·θ+(1-ω)·θ′,
32、w′=ω·w+(1-ω)·w′,
33、其中θ代表当前策略网络的参数,θ′代表目标策略网络的参数,w代表当前价值网络的参数,w′代表目标价值网络的参数,ω∈[0,1]。
34、本发明提供的一种边缘计算系统,所述系统包括:
35、用于初始化深度确定性策略梯度(ddpg)算法参数的系统初始化模块,包含设置网络学习率、折扣因子gamma、重放缓冲区大小d、mini-batch的大小m及ou噪声的配置模块,以及用于定义iot设备数量、基站数量等网络布局参数的网络构建模块。
36、其中所述系统进一步包括:用于每个周期开始时基于当前网络状态生成动作的智能体模块,该智能体模块具备向生成的动作添加探索噪声的功能,以及用于执行计算资源分配和接入控制策略的动作执行模块。
37、其中所述系统进一步包括:用于执行动作并计算即时奖励的奖励获取模块,该奖励获取模块根据系统所有设备的长期平均能耗来计算奖励,并将系统状态从当前状态转移到下一状态的状态转移模块。
38、其中所述系统进一步包括:用于存储每一次的系统状态、动作、奖励和下一状态的经验元组的经验回放模块,以及用于从存储的经验中抽取mini-batch进行学习的数据抽样模块。
39、其中所述系统进一步包括:用于根据经验回放模块的数据更新主actor网络和主critic网络的网络更新模块,该模块包括利用梯度上升法和梯度下降法来调整网络参数的参数优化单元。
40、其中所述系统进一步包括:用于根据主网络参数更新目标actor网络和目标critic网络的参数更新模块,该模块采用软更新策略,其中目标网络参数是主网络参数的加权平均值的参数同步单元。
41、本发明在边缘计算和区块链技术整合方面具有重要的有益之处具体分析如下:
42、第一,本发明强化数据安全和隐私保护。通过区块链技术的分布式和不可篡改的特性,边缘设备和服务器之间的数据交换得到强化的安全性。所有交易和信息都被记录在区块链中,确保数据的透明性和不可篡改性。这样的安全性使得数据更加可信,减少了数据泄露、篡改或未经授权访问的风险。此外,智能合约等区块链功能可以确保数据交换和交易的透明性和合规性,增强了对数据操作的监督和追溯能力。因此,本发明的整合对于在边缘计算环境中加强数据安全性和隐私保护方面具有重大意义。
43、本发明的结合将边缘计算和区块链的优势相互融合,为边缘计算提供了更高效和可扩展的解决方案。区块链技术的分布式特性和共识机制可以改善边缘计算环境中的数据管理和交换效率。通过在边缘设备和基站间建立分布式账本,可实现更快速的数据验证和交易确认,减少了中心化管理的需求。此外,智能合约和去中心化的特性提供了更加灵活和可编程的应用场景,可以实现多种业务逻辑和自动化操作。这种结合也为边缘计算的可扩展性提供了更大的空间,能够更好地应对不断增长的设备连接和数据处理需求,使整个系统更具鲁棒性和可持续性。
44、本发明根据实际的动态环境,为移动边缘计算与区块链集成系统提出了一个动态的协同计算资源分配和接入控制方法,通过与实验数据比较,证实该动态的资源分配比传统的静态资源分配方法更加的准确,能够模拟实际的环境,同时操作简便,而且更具有实时性,更接近真实场景,利于网络优化,系统性能的提高。
45、第二,本发明具体取得的显著技术进步,在于实现了一种区块链驱动的边缘计算系统联合优化方法,该方法在以下几个关键方面取得了显著的进步:
46、1)高效的资源分配:
47、该方法通过优化计算资源分配,显著提高了边缘计算环境中的资源利用率。这包括更有效地分配边缘服务器的计算资源和区块链网络中用于区块生成的资源。这种优化不仅提升了系统性能,还降低了能耗。
48、2)智能的接入控制策略:
49、通过引入先进的学习机制,系统能够智能地调整用户设备(ue)的接入控制策略,以适应动态变化的网络条件。这增强了网络的稳定性和用户体验。
50、3)强化学习的集成:
51、将深度强化学习(deep reinforcement learning,drl)算法与边缘计算系统结合,使得系统能够基于实时数据自我学习和适应,从而在没有明确指令的情况下做出最优决策。这种自适应能力对于处理复杂和动态变化的边缘计算环境至关重要。
52、4)能耗优化:
53、方法中包含的奖励机制特别关注于减少系统所有设备的长期平均能耗,这不仅提高了能效,还对环境友好。在能源成本日益增加和环境保护日益受重视的当今社会,这一点尤其重要。
54、5)系统稳定性和可靠性的提升:
55、通过对动作执行后的即时奖励以及状态转移的精确计算和优化,该方法增强了系统的稳定性和可靠性,特别是在处理大量数据和高并发请求的情况下。
56、6)网络的自主学习和优化能力:
57、该方法通过不断的迭代训练和基于经验的网络更新,使得系统能够不断优化其决策过程,从而提高整体性能。
58、这些技术进步共同作用,使得区块链驱动的边缘计算系统不仅在性能上有所提升,同时在能效、稳定性和自适应能力上也有显著的改进,这对于现代复杂的计算需求而言至关重要。
59、第三,本发明提供的基于区块链和深度强化学习相结合的边缘计算系统优化方法,其核心在于使用数学模型来指导系统的行为和学习过程。可以根据这些数学模型的特点来探讨它们带来的技术效果:
60、1)即时奖励的计算
61、即时奖励的计算公式关注于系统所有设备的长期平均能耗。
62、能效优化:通过将奖励与能耗直接相关联,这种方法鼓励系统发现减少总能耗的策略,从而实现更高的能源效率。
63、成本节约:长期来看,能效的提升可显著减少运营成本,特别是在能源密集型的边缘计算环境中。
64、2)主actor和critic网络的更新
65、通过随机抽样小批量经验数据更新,并利用梯度上升法更新当前策略网络。
66、策略优化:通过不断调整策略网络参数,系统能够学习并采用更有效的决策策略。
67、响应性提高:使用小批量数据使网络能够快速适应环境变化,增强了系统的动态调整能力。
68、3)td目标和critic网络的损失函数
69、基于时间差分(td)目标和critic网络预测的q值来计算损失函数,并通过梯度下降法更新。
70、学习稳定性:使用td目标作为基础可以平衡学习过程,避免因预测误差过大而引起的不稳定。
71、性能优化:通过精确计算损失函数并更新网络,提高了系统决策的准确性和效率。
72、4)参数更新公式
73、描述了主actor和critic网络参数更新目标网络的方法,涉及当前网络和目标网络参数。
74、策略逐渐逼近:通过逐步更新目标网络参数,系统能够平滑地过渡到新策略,防止由于急剧变化导致的性能波动。
75、持续学习和适应:这种持续的参数更新机制确保系统能够适应长期的环境变化。
76、本发明提供的数学模型的应用不仅提高了边缘计算系统的运行效率和决策质量,还增强了其对环境变化的适应能力和长期的稳定性。这些技术效果对于处理大量数据和高频交互的现代边缘计算环境至关重要。
1.一种区块链驱动的边缘计算系统联合优化方法,其特征在于,包括以下步骤:
2.如权利要求1所述的区块链驱动的边缘计算系统联合优化方法,其特征在于,所述s102、智能体与环境互动;在每个周期开始时,初始化系统状态s(t);主actor基于当前策略生成动作,并通过添加噪声以促进探索性能中的状态表示为:
3.如权利要求1所述的区块链驱动的边缘计算系统联合优化方法,其特征在于,所述s103:智能体执行生成的动作a(t),根据执行的动作获得即时奖励,并将环境状态转移到下一个状态s(t+1)中奖励reward的计算公式如下:
4.如权利要求1所述的区块链驱动的边缘计算系统联合优化方法,其特征在于,所述s105:更新主actor网络和主critic网络;主actor网络根据当前经验数据更新参数,同时主critic网络评估动作效果;通过随机抽样小批量的经验数据<sm,am,rm,sm+1>,m∈{1,...,m}更新θ;
5.如权利要求1所述的区块链驱动的边缘计算系统联合优化方法,其特征在于,所述s106:根据td目标和critic网络预测的q值计算critic网络的损失函数,从经验回放缓冲区中抽样小批量经验,用于更新目标actor和critic网络。目标td可由下式给出:
6.如权利要求1所述的区块链驱动的边缘计算系统联合优化方法,其特征在于,所述s108:根据更新的主actor和critic网络参数更新目标actor和critic网络参数的更新公式如下:
7.一种边缘计算系统,其特征在于,所述系统包括:
8.如权利要求7所述的边缘计算系统,其特征在于,所述系统进一步包括:
9.如权利要求7所述的边缘计算系统,其特征在于,所述系统进一步包括:
