本发明涉及数据处理,具体地说是一种数据库表之间数据归集方法、系统、设备及介质。
背景技术:
1、目前的数据归集技术多依赖于手动定义表结构和映射关系,效率低且容易出错。数据归集多数依赖于固定、预定义的表结构和映射关系。为了将数据从一个或多个源表迁移到目标表,需要手动定义和维护这些结构。
2、手动定义的过程不仅耗时,而且随着数据源的增加和变化,需要频繁地进行调整。静态的方法带来多种问题。首先,每当源表结构发生变化时,都需要手动更新映射关系,导致维护成本增加。其次,手动定义的过程中容易产生错误,增加了数据不一致的风险。当数据源众多、更新频繁时,人工操作变得难以维护,导致数据整合错误,而错误的数据会对后续的决策产生巨大的负面影响。
3、随着数据的爆炸性增长,企业需要对来自不同来源的数据进行归集和分析。现有的方法多依赖于固定的表结构和映射关系,缺乏足够的灵活性。随着大数据技术的普及,组织和企业积累了大量的数据,这些数据散落在不同的系统和数据库中。
4、故如何高效的进行数据归集和清洗,提高数据处理的效率和准确性是目前亟待解决的技术问题。
技术实现思路
1、本发明的技术任务是提供一种数据库表之间数据归集方法、系统、设备及介质,来解决如何高效的进行数据归集和清洗,提高数据处理的效率和准确性的问题。
2、本发明的技术任务是按以下方式实现的,一种数据库表之间数据归集方法,该方法具体如下:
3、表结构抽象:对字段类型和内置函数进行抽象;
4、定义表之间映射关系,并定义数据的归集规则;
5、根据映射关系用定时任务归集数据到指定表;
6、对指定表数据进行清洗显示。
7、作为优选,字段类型抽象为字符型、数值型、布尔型及时间型;
8、其中,字符型对应的真实数据库字段类型包括byte、char、varchar及clob;或者,
9、字符型指定任一字段的长度;
10、数值型对应的真实字段类型包括int、decimal、float及double;
11、或者,
12、数值型指定整数位及小数位;
13、布尔型对应真实的字段类型为bool;
14、时间型包括的真实字段类型为date及datetime;
15、内置函数的抽象是对日期加减、日期转换及字符串拼接抽象为timeadd函数、timeconvert函数及stradd函数。
16、更优地,对表结构进行抽象表示形成一个通用模型,使得不同的数据库表在通用模型下进行统一描述;
17、基于识别的结构形成一个抽象的表结构模型,情况如下:
18、若数据库表已经存在,则输入表名,自动从数据库表读取对应表的表结构,自动创建表结构模型;
19、若数据库表不存在,则通过导入表结构设计文件(pdm),根据文件生成表结构模型。
20、作为优选,定义表之间映射关系具体如下:
21、根据抽象的表结构定义表之间的映射关系:将源表中的字段映射到目标表的字段或设定数据归集的规则;其中,数据归集的规则具体为:对于指定字段的数据进行合并、平均或其他计算;或者,对于数据进行按照指定的字段进行分组,对分组后的结果进行统计,分组字段和统计字段最终归集到汇总表中,方便后期进行展示;
22、汇总表是一种通用的表,是最终的结果表。
23、作为优选,定义数据的归集规则具体如下:
24、形成数据广图:首先要有一张数据主表(通常是作为聚合等操作的来源数据表);然后通过数据主表描述和其余表的关系(通过数据主表怎么联查到其他表),其余表通常是作为分组依据的表、或者补充聚合数据的表;
25、定义分组字段、聚合字段及映射关系:定义使用分组的字段,定义分组后进行聚合操作的字段,同时定义分组字段id、名称要映射到汇总表中的字段以及聚合结果映射到汇总表的字段(就要定义使用那些字段进行分组、分组后对哪些字段进行什么样的聚合操作(求和、平均、统计个数等)。并且要定义好分组字段id、名称要映射到汇总表中的哪个字段,聚合结果映射到汇总表的那些字段);
26、指定定时规则:规定执行一次汇总操作的时间。
27、作为优选,根据映射关系用定时任务归集数据到指定表具体如下:
28、设定定时任务,按照预定的频率(如每日、每周)自动进行数据归集;
29、定时任务在执行时,首先根据定义的映射关系从源表获取数据,然后按照归集规则处理数据,并存储到指定的目标表中,并且会有一个固定的归集时间字段和是否最新版本字段,用于区分归集的数据是否是最新的数据,使用多线程处理,进行任务拆分,加快归集处理速度。
30、作为优选,对指定表数据进行清洗显示具体如下:
31、对归集后的数据进行清洗,包括去除重复数据、填补缺失值及转换数据格式;
32、清洗后的数据进行进一步的分析和显示,例如通过可视化工具展示数据的统计结果和趋势;
33、或者,
34、根据上次归集的数据与本次归集的数据进行对比,使用可视化工具展示差异信息及图表。
35、一种数据库表之间数据归集系统,该系统包括:
36、表结构抽象模块,用于对字段类型和内置函数进行抽象;
37、定义模块,用于定义表之间映射关系,并定义数据的归集规则;
38、归集模块,用于根据映射关系用定时任务归集数据到指定表;
39、清洗模块,用于对指定表数据进行清洗显示。
40、一种电子设备,包括:存储器和至少一个处理器;
41、其中,所述存储器上存储有计算机程序;
42、所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的数据库表之间数据归集方法。
43、一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的数据库表之间数据归集方法。
44、本发明的数据库表之间数据归集方法、系统、设备及介质具有以下优点:
45、本发明自动化了表结构抽象和映射关系定义,提供了图形化界面来配置映射关系,支持按照多维度对数据进行统计汇总归集,提供了预展示界面,方便查询数据是否归集正确,同时提供了高效的数据归集和清洗机制,大大提高了数据处理的效率和准确性。
1.一种数据库表之间数据归集方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的数据库表之间数据归集方法,其特征在于,字段类型抽象为字符型、数值型、布尔型及时间型;
3.根据权利要求1或2所述的数据库表之间数据归集方法,其特征在于,对表结构进行抽象表示形成一个通用模型,使得不同的数据库表在通用模型下进行统一描述;
4.根据权利要求1所述的数据库表之间数据归集方法,其特征在于,定义表之间映射关系具体如下:
5.根据权利要求1所述的数据库表之间数据归集方法,其特征在于,定义数据的归集规则具体如下:
6.根据权利要求1所述的数据库表之间数据归集方法,其特征在于,根据映射关系用定时任务归集数据到指定表具体如下:
7.根据权利要求1所述的数据库表之间数据归集方法,其特征在于,对指定表数据进行清洗显示具体如下:
8.一种数据库表之间数据归集系统,其特征在于,该系统包括:
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中任一项所述的数据库表之间数据归集方法。