本发明涉及联邦学习,尤其涉及一种并行联邦分裂学习模型训练方法、系统及介质。
背景技术:
1、在web 3.0时代,边缘人工智能已经成为从边缘设备生成的大量数据中提取知识,并用于智能服务的主要技术工具之一。边缘人工智能中的一种流行技术是联邦学习(fl),它通过数据并行的方式在边缘设备(即工作终端)之间协作训练一个全局共享的模型。
2、然而,由于资源受限的工作终端的硬件限制,对于模型训练需要高计算力和大内存的要求阻碍了每个工作终端训练完整的大规模模型。基于此,分裂联邦学习(sfl),通过结合数据并行性和模型并行性以训练大规模模型的方法被提出。sfl将整个模型分为两个子模型,即底部子模型和顶部子模型,在分裂层进行分割。底部子模型在资源受限的工作终端上进行训练,而顶部子模型则被卸载到ps(服务器,下同)。然后工作终端通过不断与ps交换数据特征/梯度执行训练过程。然而,考虑到ps的带宽有限且参与训练的工作终端数量众多,ps成为系统通信的单点瓶颈,导致网络拥塞和可扩展性差。
3、此外,由于1)统计异质性。由于web 3.0中工作终端收集的本地数据取决于其用户偏好,导致所有工作终端之间的数据非独立同分布(非iid)。非iid数据减缓了收敛速度,甚至危及训练模型的准确性。2)系统异质性。边缘计算系统中的工作终端通常配置有不同且有限的能力。工作终端的计算和通信能力可能相差数十倍。系统异质性对同步训练过程产生重大影响,因为快速的工作终端可能被迫等待慢速的工作终端,导致增加等待时间和降低训练效率。
技术实现思路
1、针对现有技术的不足,本发明的目的在于提供一种并行联邦分裂学习模型训练方法、系统及介质。
2、为实现前述发明目的,本发明采用的技术方案包括:
3、第一方面,本发明提供一种基于集群构建的并行联邦分裂学习模型训练方法,其包括:
4、将多个工作终端划分为多个集群,且任一所述集群中划分出顶部工作终端和底部工作终端;
5、利用所述顶部工作终端维护顶部子模型,利用所述底部工作终端训练底部子模型,所述顶部工作终端与底部工作终端之间以及多个底部工作终端之间通过交换特征数据和梯度共同进行本地更新;
6、对训练得到的底部子模型进行本地聚合得到聚合子模型,并将多个所述集群对应的多个顶部子模型和聚合子模型进行全局聚合,获得全局模型。
7、第二方面,本发明还提供一种基于集群构建的并行联邦分裂学习模型训练系统,其包括服务器和多个工作终端;
8、所述服务器用于划分所述工作终端,并将多个所述工作终端划分为多个集群,且任一所述集群中划分出顶部工作终端和底部工作终端;
9、所述顶部工作终端用于维护顶部子模型,所述底部工作终端用于训练底部子模型,所述顶部工作终端与底部工作终端之间以及多个底部工作终端之间通过交换特征数据和梯度共同进行本地更新;
10、所述顶部终端还对训练得到的底部子模型进行本地聚合得到聚合子模型,并将多个所述集群对应的多个顶部子模型和聚合子模型发送至所述服务器;
11、所述服务器对多个顶部子模型和聚合子模型进行全局聚合,获得全局模型。
12、第三方面,本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被运行时执行上述并行联邦分裂学习模型训练方法的步骤。
13、基于上述技术方案,与现有技术相比,本发明的有益效果至少包括:
14、本发明所提供的并行联邦分裂学习模型训练方法将工作终端划分集群,且在集群中设置顶部工作终端,用于分布式训练顶部子模型和底部子模型,训练过程分散至集群中进行本地训练,避免了工作终端通过不断与服务器交换数据特征/梯度的训练过程,从而规避了服务器成为系统通信的单点瓶颈,不仅能够减轻工作终端训练大规模模型的计算负担,还能避免通信瓶颈,减少服务器的网络流量压力。
15、此外,在本发明的优选实施例中,一方面,为了解决系统异质性,通过将计算/通信能力相似的工作终端组织到同一集群中尽量缩小每个集群内工作终端之间的等待时间;另一方面,所划分的每个集群的本地数据(除了顶部工作终端)尽可能接近iid,以处理统计异质性。
16、上述说明仅是本发明技术方案的概述,为了能够使本领域技术人员能够更清楚地了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合详细附图说明如后。
1.一种基于集群构建的并行联邦分裂学习模型训练方法,其特征在于,包括:
2.根据权利要求1所述的并行联邦分裂学习模型训练方法,其特征在于,多个所述集群的划分依据包括:
3.根据权利要求2所述的并行联邦分裂学习模型训练方法,其特征在于,所述并行联邦分裂学习模型训练方法多轮次进行,每一轮次中,监控所述顶部工作终端和底部工作终端的当前状态,并基于所述当前状态对所述集群进行划分;
4.根据权利要求3所述的并行联邦分裂学习模型训练方法,其特征在于,基于历史移动平均估计所述计算能力和通信能力;
5.根据权利要求4所述的并行联邦分裂学习模型训练方法,其特征在于,所述集群的划分的限制条件包括:
6.根据权利要求2所述的并行联邦分裂学习模型训练方法,其特征在于,所述统计异质性的处理采用散度损失最小化原则;
7.根据权利要求2所述的并行联邦分裂学习模型训练方法,其特征在于,还包括:
8.根据权利要求7所述的并行联邦分裂学习模型训练方法,其特征在于,为多个不同的所述集群分配自适应权重,以进行所述全局聚合;
9.一种基于集群构建的并行联邦分裂学习模型训练系统,其特征在于,包括服务器和多个工作终端;
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被运行时执行权利要求1-8中任意一项所述的并行联邦分裂学习模型训练方法的步骤。