一种多模态数据采集方法、系统、终端及存储介质与流程

专利检索2025-05-27  12


本发明涉及数据处理,具体涉及是一种多模态数据采集方法、系统、终端及存储介质。


背景技术:

1、随着技术的飞速发展,数据已经成为组织和企业决策的核心要素。在医疗技术领域,数据不仅是诊断、治疗的基础,也是医学研究和改进的关键。因此,数据采集的准确性和实时性对于医疗行业的发展至关重要。

2、传统的数据采集方法主要使用etl工具的方式进行数据采集,很多etl工具只能支持有限的数据库类型,而且在应对复杂多样的数据采集场景(即应对多模态数据采集)时,由于数据具有分散存储、格式多样、数据源种类多的特点,往往需要采用多种不同的工具和方法进行不同模态数据的采集。此外,对于无法直接使用etl工具进行采集的不同模态的数据,往往需要对数据进行额外的转换,之后再使用相应的etl工具进行采集,这不仅增加了数据采集的复杂性和成本,也影响了数据采集的实时性。


技术实现思路

1、为了解决以上至少一方面的问题,本发明提供一种多模态数据采集方法、系统、终端及存储介质,用于根据需要选择的不同执行引擎执行对应的数据采集任务,采集不同模态的数据,方便及时、便利地获取更丰富的数据信息。

2、第一方面,本发明提供了一种多模态数据采集方法,方法包括:

3、创建采集任务;

4、为所述采集任务配置数据源和目标数据库;数据源为要进行数据采集的来源,目标数据库为用于存储采集的数据的数据库;

5、在采集任务下创建采集子任务,为创建的采集子任务配置所述数据源与所述目标数据库之间的数据映射规则;

6、根据配置的数据源和目标数据库,为创建的采集子任务选择适用的任务执行器,任务执行器包括若干个执行引擎,执行引擎为预先汇集的若干个etl工具,包括但不限于datax工具、kettle工具、canal工具、flume工具、sqoop工具和ogg工具;

7、调用任务执行器执行对应的采集子任务。

8、进一步地,所述任务执行器还包括数据采集器,数据采集器为自定义的执行引擎,非etl工具,包括实时接口采集器、实时时序采集器和mq接口采集器,用于采集执行引擎不能采集的数据。

9、进一步地,配置数据源和目标数据库包括:配置数据源的源路径、地址和端口;配置目标数据库的地址、端口和库表信息。

10、进一步地,方法还包括,在为创建的采集子任务配置所述数据源与所述目标数据库之间的数据映射规则时,还为创建的每一个采集子任务配置数据源的数据采集模式,包括全量数据模式、增量数据模式和时间段数据模式。

11、进一步地,方法还包括当任务执行器执行采集子任务时,对采集子任务的执行状态、执行时间、执行日志和占用资源进行监控;

12、方法还包括统计并显示采集子任务执行成功的数量、采集子任务执行失败的数量和采集子任务的执行时长。

13、第二方面,本发明提供了一种多模态数据采集系统,系统包括:

14、任务处理模块,用于创建采集任务;

15、配置管理模块,用于为所述采集任务配置数据源和目标数据库;数据源为要进行数据采集的来源,目标数据库为用于存储采集的数据的数据库;

16、任务处理模块,还用于在采集任务下创建采集子任务,为创建的采集子任务配置所述数据源与所述目标数据库之间的数据映射规则;

17、任务处理模块,还用于根据配置的数据源和目标数据库,为创建的采集子任务选择适用的任务执行器;任务执行器包括若干个执行引擎,执行引擎为预先汇集的若干个etl工具,包括但不限于datax工具、kettle工具、canal工具、flume工具、sqoop工具和ogg工具;任务执行器还包括数据采集器,数据采集器为自定义的执行引擎,为非etl工具,包括实时接口采集器、实时时序采集器和mq接口采集器,用于采集执行引擎不能采集的数据;

18、任务处理模块,还用于调用任务执行器执行对应的采集子任务。

19、进一步地,所述配置管理模块包括数据源配置模块和目标数据库配置模块;

20、数据源配置模块,用于配置数据源的源路径、地址和端口;

21、目标数据库配置模块,用于配置目标数据库的地址、端口和库表信息。

22、进一步地,任务处理模块包括任务管理模块、任务配置模块、任务执行器管理模块、任务监控模块和任务显示模块;

23、任务管理模块,用于管理采集任务和采集子任务的创建、启动、暂停、恢复和终止;

24、任务配置模块,用于为创建的采集子任务配置所述数据源与所述目标数据库之间的数据映射规则;还用于为创建的采集子任务配置数据源的数据采集模式,包括全量数据模式、增量数据模式和时间段数据模式;

25、任务执行器管理模块,用于实现任务执行器的管理;

26、任务监控模块,用于在任务执行器执行采集子任务时,对采集子任务的执行状态、执行时间、执行日志和占用资源进行监控;

27、任务显示模块,用于统计并显示采集子任务执行成功的数量、采集子任务执行失败的数量和采集子任务的执行时长。

28、第三方面,本发明提供了一种终端,所述终端包括存储器和处理器;

29、存储器,用于存储多模态数据采集程序;

30、处理器,用于执行所述多模态数据采集程序时实现第一方面任一项所述的多模态数据采集方法。

31、第四方面,本发明提供了一种存储有计算机程序的计算机可读存储介质,所述可读存储介质上存储有多模态数据采集程序,所述多模态数据采集程序被处理器执行时实现第一方面任一项所述的多模态数据采集方法。

32、从以上技术方案可以看出,本发明具有以下优点:

33、本发明基于多模态数据采集技术,在采集任务下创建若干个采集子任务,并根据采集子任务选择不同的任务执行器执行数据采集任务,通过选择任务执行器中执行引擎中的若干个etl工具,可实现对不同模态数据的采集,使得数据采集具有更好的扩展性和兼容性,有助于及时、便利地获取更丰富的数据。

34、而且本发明基于多模态数据采集技术,设置自定义执行引擎数据采集器,通过数据采集器,能够直接采集执行引擎中的etl工具不能直接采集的不同模态的数据,使得数据采集具备灵活性和适应性,能够适用于不同的多模态数据采集场景,例如医疗数据采集场景,灵活地选择适合的任务执行器进行数据采集,降低了数据采集的复杂性和成本,也提高了数据采集的实时性。

35、此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。



技术特征:

1.一种多模态数据采集方法,其特征在于,方法包括步骤:

2.根据权利要求1所述的多模态数据采集方法,其特征在于,所述任务执行器还包括数据采集器,数据采集器为自定义的执行引擎,非etl工具,包括实时接口采集器、实时时序采集器和mq接口采集器,用于采集执行引擎不能采集的数据。

3.根据权利要求1所述的多模态数据采集方法,其特征在于,配置数据源和目标数据库包括:配置数据源的源路径、地址和端口;配置目标数据库的地址、端口和库表信息。

4.根据权利要求1所述的多模态数据采集方法,其特征在于,方法还包括,在为创建的采集子任务配置所述数据源与所述目标数据库之间的数据映射规则时,还为创建的每一个采集子任务配置数据源的数据采集模式,包括全量数据模式、增量数据模式和时间段数据模式。

5.根据权利要求1所述的多模态数据采集方法,其特征在于,方法还包括当任务执行器执行采集子任务时,对采集子任务的执行状态、执行时间、执行日志和占用资源进行监控;

6.一种多模态数据采集系统,其特征在于,系统包括:

7.根据权利要求6所述的多模态数据采集系统,其特征在于,所述配置管理模块包括数据源配置模块和目标数据库配置模块;

8.根据权利要求6所述的多模态数据采集系统,其特征在于,任务处理模块包括任务管理模块、任务配置模块、任务执行器管理模块、任务监控模块和任务显示模块;

9.一种终端,其特征在于,所述终端包括存储器和处理器;

10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述可读存储介质上存储有多模态数据采集程序,所述多模态数据采集程序被处理器执行时实现权利要求1-5任一项所述的多模态数据采集方法。


技术总结
本发明提供一种多模态数据采集方法、系统、终端及存储介质,涉及数据处理技术领域,方法包括:创建采集任务;为所述采集任务配置数据源和目标数据库;数据源为要进行数据采集的数据库,目标数据库为用于存储采集的数据的数据库;在采集任务下创建采集子任务,为创建的采集子任务配置所述数据源与所述目标数据库之间的数据映射规则;根据配置的数据源和目标数据库,为创建的采集子任务选择适用的任务执行器,任务执行器包括若干个执行引擎,执行引擎为若干个ETL工具;调用任务执行器执行对应的采集子任务。本发明能够根据需要选择的不同执行引擎执行数据采集任务,采集不同模态的数据,方便及时、便利地获取更丰富的数据信息。

技术研发人员:刘保卫
受保护的技术使用者:北方健康医疗大数据科技有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1154234.html

最新回复(0)