一种模型训练方法、装置、计算机设备及可读存储介质与流程

专利检索2025-12-18  6


本发明涉及计算机,具体而言,涉及一种模型训练方法、装置、计算机设备及可读存储介质。


背景技术:

1、随着计算机技术的发展,利用机器学习进行数据处理变得越来越普遍。机器学习的过程,通常是指计算机设备构建初始模型,将样本数据输入至初始模型中,通过一系列算法对输入的样本数据进行分析,并通过迭代训练来更新初始模型的模型参数,得到最终合适的模型。

2、现有技术中,通常由单个设备或者计算机设备利用训练样本集等模型训练数据对需要训练的模型进行训练,以进行模型训练任务。但是在研究中发现,随着数据处理对模型准确性的要求越来越高,训练样本的数量也越来越大,若仅采用单个计算机执行模型训练任务,很可能会由于单一计算资源的不足导致模型训练需要耗费较长时间;甚至于当计算压力过大时,很可能还会造成计算机处理器崩溃,发生宕机等情况发生,从而导致无法正常进行模型训练。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种模型训练方法、装置、计算机设备及可读存储介质,以确保正常进行模型训练,同时减少模型训练时长,提高模型训练的速度。

2、第一方面,本技术实施例提供了一种模型训练方法,所述方法包括:

3、搭建kubernetes集群,其中,所述kubernetes集群中包括至少一个节点;

4、将模型代码和依赖项打包为docker镜像,并将所述docker镜像上传至harbor镜像仓库;

5、基于所述kubernetes集群和所述harbor镜像仓库构建模型训练任务,其中,所述kubernetes集群为所述模型训练任务的容器资源,所述harbor镜像仓库为所述模型训练任务的训练镜像;

6、响应用户输入的模型训练指令,通过所述模型训练指令所指示的各目标节点执行所述模型训练任务。

7、可选地,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

8、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,所述方法还包括:

9、创建minio对象存储服务器和pvc持久化存储卷声明;

10、将所述minio对象存储服务器和pvc持久化存储卷声明进行连接;

11、将所述pvc挂载至所述kubernetes集群中;

12、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

13、通过所述pvc将所述kubernetes集群中各目标节点执行所述模型训练任务时所产生的模型训练数据存储至所述minio。

14、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

15、采集各节点的系统信息,其中,所述系统信息包括cpu使用率、内存使用率和磁盘使用率;

16、根据各节点的系统信息和预先配置的告警规则确定出各节点的告警策略;

17、基于各节点的告警策略进行告警。

18、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

19、采集各目标节点执行所述模型训练任务时所产生的日志数据。

20、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

21、每隔预设时长将从各目标节点执行所述模型训练任务时所产生的日志数据中筛选出error级别的异常日志数据;

22、将所述异常日志数据发送至目标邮箱。

23、可选地,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

24、每隔预设时长将从所述kubernetes集群中清理处于失败状态且超时的资源,其中,所述资源包括pod容器组。

25、第二方面,本技术实施例提供了一种模型训练装置,所述方法包括:

26、集群搭建模块,用于搭建kubernetes集群,其中,所述kubernetes集群中包括至少一个节点;

27、镜像上传模块,用于将模型代码和依赖项打包为docker镜像,并将所述docker镜像上传至harbor镜像仓库;

28、任务构建模块,用于基于所述kubernetes集群和所述harbor镜像仓库构建模型训练任务,其中,所述kubernetes集群为所述模型训练任务的容器资源,所述harbor镜像仓库为所述模型训练任务的训练镜像;

29、任务执行模块,用于响应用户输入的模型训练指令,通过所述模型训练指令所指示的各目标节点执行所述模型训练任务。

30、可选地,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

31、可选地,所述任务执行模块还用于:

32、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,创建minio对象存储服务器和pvc持久化存储卷声明;

33、将所述minio对象存储服务器和pvc持久化存储卷声明进行连接;

34、将所述pvc挂载至所述kubernetes集群中;

35、所述任务执行模块还用于:在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,通过所述pvc将所述kubernetes集群中各目标节点执行所述模型训练任务时所产生的模型训练数据存储至所述minio。

36、可选地,所述任务执行模块还用于:

37、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,采集各节点的系统信息,其中,所述系统信息包括cpu使用率、内存使用率和磁盘使用率;

38、根据各节点的系统信息和预先配置的告警规则确定出各节点的告警策略;

39、基于各节点的告警策略进行告警。

40、可选地,所述任务执行模块还用于:

41、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,采集各目标节点执行所述模型训练任务时所产生的日志数据。

42、可选地,所述任务执行模块还用于:

43、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,每隔预设时长将从各目标节点执行所述模型训练任务时所产生的日志数据中筛选出error级别的异常日志数据;

44、将所述异常日志数据发送至目标邮箱。

45、可选地,所述任务执行模块还用于:

46、在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,每隔预设时长将从所述kubernetes集群中清理处于失败状态且超时的资源,其中,所述资源包括pod容器组。

47、第三方面,本技术实施例提供了一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可选地实施方式中所述的模型训练方法的步骤。

48、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可选地实施方式中所述的模型训练方法的步骤。

49、本技术提供的技术方案包括但不限于以下有益效果:

50、本技术通过搭建包括至少一个节点的kubernetes集群,能够为模型训练任务的执行提供多个计算机资源,避免只能依靠单一计算机进行模型训练。然后将模型代码和依赖项打包为docker镜像,并将所述docker镜像上传至harbor镜像仓库,并基于所述kubernetes集群和所述harbor镜像仓库构建模型训练任务,其中,所述kubernetes集群为所述模型训练任务的容器资源,所述harbor镜像仓库为所述模型训练任务的训练镜像,能够为每个节点提供执行模型训练任务的模型训练数据。最后响应用户输入的模型训练指令,通过所述模型训练指令所指示的各目标节点执行所述模型训练任务,能够通过多个计算机节点并行执行模型训练任务,避免由于模型训练数据量过大可能造成的单一计算机资源无法满足训练所需资源,使得无法正常进行模型训练的情况发生,从而确保模型训练的正常进行。同时,由于多节点能够同时执行模型训练任务,相比起单一计算机单线执行训练任务,能够减少模型训练的时长,提高模型训练的速度。

51、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。


技术特征:

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述模型训练任务包括单节点训练任务和分布式训练任务,当所述模型训练任务为所述单节点训练任务时,所述目标节点的数量为一个,当所述模型训练任务为所述分布式训练任务时,所述目标节点的数量为多个。

3.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务前,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,在通过所述模型训练指令所指示的各目标节点执行所述模型训练任务时,所述方法还包括:

8.一种模型训练装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一所述的模型训练方法的步骤。

10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7中任意一项所述的模型训练方法的步骤。


技术总结
本申请提供了一种模型训练方法、装置、计算机设备及可读存储介质,其中,搭建Kubernetes集群,其中,Kubernetes集群中包括至少一个节点;将模型代码和依赖项打包为Docker镜像,并将Docker镜像上传至Harbor镜像仓库;基于Kubernetes集群和Harbor镜像仓库构建模型训练任务,其中,Kubernetes集群为模型训练任务的容器资源,Harbor镜像仓库为模型训练任务的训练镜像;响应用户输入的模型训练指令,通过模型训练指令所指示的各目标节点执行模型训练任务。采用上述方法,以确保正常进行模型训练,同时减少模型训练时长,提高模型训练的速度。

技术研发人员:马海龙,张继超,刘俊,章峰,胡家豪
受保护的技术使用者:暗物智能科技(广州)有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1159168.html

最新回复(0)