用于无线通信的电子设备和方法、计算机可读存储介质与流程

专利检索2025-02-01  27


本申请涉及无线通信,具体地涉及基于联邦强化学习的全局模型的更新。更具体地,涉及用于无线通信的电子设备和方法以及计算机可读存储介质。


背景技术:

1、随着机器学习的发展,它变得更有能力解决更为复杂的问题,例如图像处理、语言识别和语义理解等。

2、从技术层面而言,联邦学习(federated learning,fl)是一种分布式的联合学习方案,其利用多用户分别训练各自的本地数据来共同建立一个共享模型,同时能够维护用户数据的隐私性。图1示出了fl的一个模型示例,其中,每一个参与者基于各自的数据集进行训练得到本地模型比如本地模型a至c,并将这些本地模型提交到协调器,协调器对这些本地模型进行聚合以得到全局模型。协调器还将更新的全局模型提供给各个参与者。

3、强化学习(reinforcement learning,rl)是机器学习的一个分支,重点关注个体用户是如何与环境之间进行交互并且最大化累积奖励。强化学习的过程允许个体通过容错尝试的方式去学习并且改进自身行为。通过一系列的策略,参与强化学习的个体采取行动去探索环境并且期待给予相应的奖励。图2示出了强化学习的一个模型示例,其中,作为个体用户的代理在状态st处基于环境做出行动at,并在下一个状态st+1处获得奖励rt+1。针对强化学习,一个很重要的问题是需要避免用户的信息泄露,以尽最大程度保护用户的隐私,因为个体和中心处理器之间的裸数据传输会暴露很大的安全隐患。

4、此时联邦学习的优势尽显无疑,它不仅可以在避免用户隐私信息泄露的前提下完成信息的交互,而且还能够帮助用户适应不同的环境。另外一个关于强化学习的问题是很多算法的前提条件是需要在仿真环境中预先训练模型,而这个仿真环境并没有办法完全的反映和复制真实的环境。而联邦学习可以将仿真和真实的环境相汇合从而搭建二者之间的桥梁。

5、基于此,联邦强化学习(frl)的概念应运而生。换言之,联邦强化学习可以看作是联邦学习和强化学习在数据隐私保护下的结合体,一些强化学习的参数可以在联邦学习中呈现,并处理连续的决策制定的任务。


技术实现思路

1、在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

2、根据本公开的一个方面,提供了一种用于无线通信的电子设备,包括处理电路,被配置为:至少基于无线收发节点覆盖范围内的无线通信终端的处理能力和无线通信环境,确定要参与联邦强化学习的无线通信终端;以及从参与联邦强化学习的无线通信终端获取各自的本地学习模型,并基于本地学习模型获得更新的全局模型。

3、根据本公开的另一个方面,提供了一种用于无线通信的方法,包括:至少基于无线收发节点覆盖范围内的无线通信终端的处理能力和无线通信环境,确定要参与联邦强化学习的无线通信终端;以及从参与联邦强化学习的无线通信终端获取各自的本地学习模型,并基于本地学习模型获得更新的全局模型。

4、根据本公开的一个方面,提供了一种用于无线通信的电子设备,包括处理电路,被配置为:响应于来自无线收发节点的确认信息,执行无线通信终端处的本地学习模型的训练,其中,确认信息指示无线收发节点基于无线通信终端的处理能力和无线通信环境,确定无线通信终端要参与联邦强化学习;以及将本地学习模型上传至无线收发节点并从无线收发节点获取更新的全局模型。

5、根据本公开的另一个方面,提供了一种用于无线通信的方法,包括:响应于来自无线收发节点的确认信息,执行无线通信终端处的本地学习模型的训练,其中,确认信息指示无线收发节点基于无线通信终端的处理能力和无线通信环境,确定无线通信终端要参与联邦强化学习;以及将本地学习模型上传至无线收发节点并从无线收发节点获取更新的全局模型。

6、根据本公开的其它方面,还提供了用于实现上述用于无线通信的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述用于无线通信的方法的计算机程序代码的计算机可读存储介质。

7、根据本申请的实施例的电子设备和方法能够选择性地确定要参与联邦强化学习的无线通信终端,降低数据传输拥塞的产生概率,减小传输时延,同时保证学习的性能。

8、通过以下结合附图对本公开的优选实施例的详细说明,本公开的这些以及其他优点将更加明显。



技术特征:

1.一种用于无线通信的电子设备,包括:

2.根据权利要求1所述的电子设备,其中,所述无线通信终端的无线通信环境包括以下中的一个或多个:无线信道质量,数据速率,干扰强度,地理位置,与地理位置相关的信息传输路径损耗,移动速度。

3.根据权利要求1所述的电子设备,其中,所述处理电路被配置为向参与所述联邦强化学习的无线通信终端提供完整的更新的全局模型,以及向未参与所述联邦强化学习的无线通信终端提供轻量级的更新的全局模型。

4.根据权利要求1所述的电子设备,其中,所述处理电路被配置为向参与所述联邦强化学习的无线通信终端提供所述更新的全局模型,其中,未参与所述联邦强化学习的无线通信终端通过p2p通信从参与所述联邦强化学习的无线通信终端获取所述更新的全局模型。

5.根据权利要求1所述的电子设备,其中,所述处理电路还被配置为调度参与所述联邦强化学习的第一无线通信终端辅助参与所述联邦强化学习的第二无线通信终端进行本地学习模型的上传,其中,所述第二无线通信终端通过p2p通信将本地学习模型的一部分或全部发送给所述第一无线通信终端,以由所述第一无线通信终端进行上传。

6.一种用于无线通信的电子设备,包括:

7.根据权利要求6所述的电子设备,其中,所述处理电路还被配置为经由参与所述联邦强化学习的其他无线通信终端的辅助,来上传所述无线通信终端的本地学习模型的一部分或全部。

8.一种用于无线通信的方法,包括:

9.一种用于无线通信的方法,包括:

10.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被处理器执行时,使得所述处理器执行根据权利要求8或9所述的方法。


技术总结
本公开提供了一种用于无线通信的电子设备、方法和计算机可读存储介质,该电子设备包括:处理电路,被配置为:至少基于无线收发节点覆盖范围内的无线通信终端的处理能力和无线通信环境,确定要参与联邦强化学习的无线通信终端;以及从参与联邦强化学习的无线通信终端获取各自的本地学习模型,并基于本地学习模型获得更新的全局模型。

技术研发人员:崔焘,孙晨
受保护的技术使用者:索尼集团公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1149436.html

最新回复(0)