本发明涉及深度学习流程编排,尤其涉及一种面向深度学习任务的自动化编排及构建方法。
背景技术:
1、一个典型的深度学习流程通常包含数据预处理、模型训练、超参调优、模型评估、模型部署、模型推理等主要环节。在传统深度学习开发过程中,通常在数据处理、模型生成等环节职能划分不明确,部分功能存在重复冗余实现,导致算法或模块的复用率低,针对不同的业务场景,需要经验丰富的工程师进行专门的流程设计。
2、同时,目前随着ai行业的兴起,涌现出大量的专用的ai芯片架构,典型包括npu、xpu、gpgpu、gpu等,一般地深度学习训练任务对计算和网络需求相对较高,如何充分利用上述ai芯片算力,并将深度学习任务合理地调度其上高效运行,需要既广泛又专业的技术要求。
技术实现思路
1、本发明旨在至少解决现有技术中存在的技术问题之一。
2、本发明的技术方案为:一种面向深度学习任务的自动化编排及构建方法,包括依次连接的功能算法集成部件、模块智能推荐部件、任务流程编排部件、任务执行决策部件和模型服务生成部件;
3、所述功能算法集成部件用于将典型算法和基础功能模块进行统一集成管理;
4、所述模块智能推荐部件用于实现任务流程编排时算法与功能模块的自动化推荐选择;
5、所述任务流程编排部件用于将基于可视化的编排成果转换成任务执行决策部件所能解析的流程配置描述文件;
6、所述任务执行决策部件用于读取并解析专属配置描述文件,启动流程执行;
7、所述模型服务生成部件用于将训完成的模型以服务化的方式对外提供统一访问;
8、还包括算力资源调度部件,所述算力资源调度部件用于连接任务执行决策部件和模型服务生成部件。
9、所述算力资源调度部件用于为深度学习任务执行和模型服务运行,动态分配计算资源。
10、优选地,所述功能算法集成部件为丰富深度学习所需的算法与功能模块提供了统一集成与管理接口,为加速深度学习任务编排提供了坚实的底座支撑。
11、所述典型算法包括图像二值化、图像几何变换、色彩空间转换;
12、所述基础功能模块包括目标标注、模型训练、模型评估、模型部署。
13、优选地,所述模块智能推荐部件用于实现任务流程编排时算法与功能模块的自动化推荐选择,提升深度学习任务流程编排效率。这一过程具体包括:
14、s1.1:根据大量既往深度学习任务流程编排数据,融合分类、统计、聚合等推荐算法,生成智能推荐模型;
15、s1.2:流程编排过程中,利用智能推荐模型实时分析,根据上一环节职能自动预测下一环节职能,给出top3供编排时优先选用;
16、s1.3:实时记录编排数据,达到设定阈值时,如编排数据达到500条,开启推荐模型自演进(即模型的持续优化和更新)模式,逐渐提升流程编排预测准确率。
17、优选地,所述任务流程编排部件用于将基于可视化的编排成果转换成任务执行决策部件所能解析的流程配置描述文件。这一过程具体包括:
18、s2.1:输入本次流程编排数据以及编排计划的设定策略值,其中,策略值的设定包括:
19、1)基于数据驱动的策略设定:当数据达到既定阀值时,如编排数据量达到1000条,流程编排及时发现并自动调度执行;
20、2)基于事件驱动的策略设定:当触发条件达到预设值时,如用户指定立即执行条件,流程编排及时发现并自动调度执行;
21、3)基于周期驱动的策略设定:可按年、月、周、日、时、分、秒等不同粒度进行周期策略设定,当时间满足策略要求时,流程编排及时发现并自动调度执行。
22、s2.2:任务流程编排部件优先将基于可视化编排描述形式解析并转换成代码式编排配置描述形式;
23、s2.3:对代码式编排配置描述形式进行语义解析,分解成多个执行单元;
24、s2.4:分析各个执行单元之间的依赖关系,形成基本的dag有向无环图;
25、s2.5:分析执行单元逻辑功能关联及单元输入输出关联,开启功能横向并行优化与输入输出缓存复用优化,优化基本的dag有向无环图结构,生成利于并发执行与复用缓存的dag有向无环图;
26、s2.6:将优化后的dag有向无环图转换为任务执行决策部件所能理解的专属配置描述文件,包括执行策略、数据地址、算力资源、执行过程、结果输出等任务所需资源条件。
27、优选地,所述任务执行决策部件读取并解析专属配置描述文件,启动流程执行。
28、优选地,所述算力资源调度部件用于为深度学习任务执行和模型服务运行,动态分配计算资源(由npu、xpu、gpgpu等ai芯片构成)。其中,所涉及的计算资源采用多节点分布式部署模式,分为主管理节点与多个从资源节点,资源节点定期上报资源给主管理节点,主管理节点负责资源统一管理与对外服务。
29、可选地,算力资源的分配可以基于虚拟化容器的方式,实现芯片级更细粒度的划分与调用。
30、优选地,所述模型服务生成部件用于将训完成的模型以服务化的方式对外提供统一访问,可根据策略设定触发任务流程的执行,实现模型升级部署与服务发布的全自动化演进。。这一过程具体包括:
31、s3.1:将基于流程编排训练生成的模型,进行服务化部署与发布,返回服务restful api调用接口;
32、s3.2:当流程编排更新或策略驱动条件触发后,将启动重新训练流程,生成新的模型,并标记版本;
33、s3.3:停止旧版服务,启动新版服务,保持服务restful api调用接口不变。
34、可选地,模型服务化可以采用容器镜像方式进行封装、部署和发布,实现不同模型服务之间算力资源互相隔离。
35、本发明在工作中,可以充分复用已有算法与基础功能模块,叠加智能推荐技术,将传统人工代码式编排,转变为基于可视化的半自动或全自动方式编排,极大提升了深度学习任务编排效率;通过解析并优化得到执行模块单元之间的dag拓扑关系图,与npu、xpu、gpgpu等异构算力资源深度融合,可以充分有效提高系统资源利用率;通过数据、事件、周期策略设定,为流程编排设置定制化调度规则,实现深度学习任务自动化运行,完成模型一键式服务化与版本快速迭代更新。
1.一种面向深度学习任务的自动化编排及构建方法,其特征在于,包括依次连接的功能算法集成部件、模块智能推荐部件、任务流程编排部件、任务执行决策部件和模型服务生成部件;
2.根据权利要求1所述的一种面向深度学习任务的自动化编排及构建方法,其特征在于,
3.根据权利要求1至2所述的一种面向深度学习任务的自动化编排及构建方法,其特征在于,
4.根据权利要求3所述的一种面向深度学习任务的自动化编排及构建方法,其特征在于,
5.根据权利要求4所述的一种面向深度学习任务的自动化编排及构建方法,其特征在于,
6.根据权利要求4或5所述的一种面向深度学习任务的自动化编排及构建方法,其特征在于,所述算力资源调度部件包括多类异构资源,具体为:npu、xpu、gpgpu。
7.根据权利要求1所述的一种面向深度学习任务的自动化编排及构建方法,其特征在于,