本发明涉及数据管理技术,具体涉及一种大数据信息分析管理系统。
背景技术:
1、随着互联网的快速发展,人们对互联网的运用越来越广泛,同时,在对互联网的运用过程中,产生的数据越来越多,尤其是工业方面,通过互联网与传感器的技术的结合,产生了海量的数据,为了快速获取传感器对应的监控结果,人们用到了基于大数据的信息管理系统,在一定程度上帮助人们实现对大数据的监控及处理,在节省了人力资源的同时,监控效果更好。
2、但是,当前现有的基于大数据的信息管理系统尚且存在不足之处,尤其针对企业管理的时候,由于企业所面临的数据远比个人非常庞大,导致服务器内通常存在僵尸信息数据(无价值数据),对服务器的内存占用一定空间,同时,现在的基于大数据的信息管理系统也缺少自主优化能力,导致使用人员不能及时有效的获取所需数据。
技术实现思路
1、本发明的目的是提供一种大数据信息分析管理系统,以解决现有技术中的上述不足之处。
2、为了实现上述目的,本发明提供如下技术方案:一种大数据信息分析管理系统,包括:
3、数据识别模块,通过数据识别模块分析数据信息中信息含量,不仅可以在数据信息中分辨僵尸信息数据,同时可以实现数据分析操作;
4、数据压缩模块,所述数据压缩模块通过识别僵尸信息数据与有效数据信息,并将僵尸信息数据与有效数据信息通过不同压缩方式进行数据压缩,减少数据存储所需的存储空间,所述僵尸信息数据的压缩方式;
5、数据切片模块,所述数据切片模块用于剪切僵尸信息数据中各段信息,且将多个数据信息中相同的数据段仅保留一份,这样可以减少数据存储空间;
6、数据编号模块,所述数据编号模块用于对数据切片模块切片完成的数据切片进行标号;
7、数据分类模块,所述数据分类模块用于对编号完成的数据切片根据信息类型进行分类;
8、数据查询模块,所述数据查询需求模块用于工作人员输入查询需求进行数据查询;
9、数据匹配模块,所述数据匹配模块用于根据接收的查询需求选择对应编号的数据切片;
10、数据调用模块,所述数据调用模块用于调用对应编号的数据切片;
11、数据恢复模块,所述数据恢复模块用于通过对数据调用模块调用的数据切片进行解压与排序,从而恢复对应的大数据信息。
12、进一步地,所述数据识别模块包括:
13、信息量模型生成模块,所述信息量模型生成模块用于生成计算数据识别模块识别的数据信息量;
14、权重分析模块,所述权重分析模块用于通过层次分析法分析多种计算评价因子的权重;
15、评价因子采集模块,所述评价因子采集模块用于采集评价因子;
16、总信息量计算模块,所述总信息量计算模块用于根据信息量模型生成模块识别的数据信息量以及权重分析模块分析的多种计算评价因子的权重计算数据识别模块识别的数据总信息量;
17、识别结果输出模块,所述识别结果输出模块用于将数据识别模块识别的数据进行输出。
18、进一步地,所述数据识别模块包括以下工作步骤:
19、a1,信息量模型通过信息量值的大小来评价影响因素与研究对象关系的密切程度,数据信息(y)是受多种因素组合(xi,i=1,2,3,…,n)影响,各种因素对数据信息所起的影响不同,需综合考虑各因素与组合,其信息量模型的计算公式如下:
20、;
21、式中,i(y,x1x2x3…xn)为具体因素组合x1x2x3…xn对数据信息的发生所提供的信息量,p(y,x1x2x3…xn)为因素组合x1x2x3…xn组合下数据信息异常发生的概率,p(y)为数据信息异常发生的可能概率;
22、a2,采用样本频率计算信息量值,即各类评价单元内数据信息点的分布数与区域内数据信息分布总量比实现,对应某种因素特定状态下的数据信息信息量公式可表示为:
23、;
24、式中:
25、iaj→b——对应因素a、j状态下数据信息异常b发生的信息量;
26、nj——对应因素a、j状态下数据信息分布的单元数;
27、n——调查区已知有数据信息分布的单元总数;
28、sj——因素a、j状态分布的单元数;
29、s——为调查区单元总数;
30、a3,当iaj→b>0时,表明该条件下数据信息异常易发生,当iaj→b<0时,表明该条件下不利于数据信息异常发生;
31、a4,评价因子个数n确定后,然后计算总的信息量值:
32、;
33、式中:
34、i——对应特定单元数据的总信息量,指示数据异常发生的可能性,为数据信息异常易发性指数;
35、ni——对应特定因素、第i状态(或区间)条件下的数据信息面;
36、si——对应特定因素、第i状态(或区间)的数据信息分布面积;
37、n——调查区数据信息异常总信息量;
38、s——调查区总信息量;
39、a5,根据上述步骤计算的信息量将数据分为僵尸信息数据和正常信息数据。
40、进一步地,所述数据分类模块包括:
41、数据预处理模块,用于将多通道转化为单通道的数据;
42、模板选取模块,用于选取合适的数据模板;
43、分类模板制作模块,用于根据分类模板选取模块选取的数据模板制作合适的分类模板;
44、数据划分模块,用于将数据划分为训练集与测试集;
45、数据集构造模块,用于重新构造数据集;
46、数据标签模块,用于重新构造数据标签;
47、数据均衡模块,用于进行数据均衡处理。
48、进一步地,所述数据分类模块包括以下工作步骤:
49、b1,将多通道数据转化为单通道的数据;
50、b2,将预处理完成的数据划分训练集与测试集;
51、b3,选取合适的数据模板;
52、b4,根据数据模板制作合适的分类模板;
53、b5,将分类模板与训练集和测试集共同构建新数据集;
54、b6,根据新数据集设置新数据标签;
55、b7,根据新数据标签进行数据均衡。
56、进一步地,所述数据切片模块包括:
57、压缩文件接收模块,所述压缩文件接收模块用于接收数据压缩模块压缩完成的压缩文件;
58、数据信息量报告生成模块,所述数据信息量报告生成模块用于收集压缩文件接收模块接收的压缩文件的数据信息量,并生成数据信息量报告;
59、压缩文件切片模块,所述压缩文件切片模块用于对压缩文件接收模块接收的压缩文件进行切片;
60、文本预处理模块,所述文本预处理模块用于使用nltk工具包对数据信息量报告内容和压缩文件内容进行分词处理,对于在数据信息量报告和压缩文件中存在的复合词,根据驼峰命名规则将它们分开;
61、压缩文件特征提取模块,所述压缩文件特征提取模块用于对压缩文件特征进行单段切片处理与多段切片处理后进行压缩文件特征提取;
62、数据信息量报告特征提取模块,所述数据信息量报告特征提取模块通过使用常用的自然语言预处理方法来对缺陷报告进行分词并去除停用词,之后,使用skip-gram模型来获取每个单词的向量,最后,使用1d-cnn与最大池化提取缺陷报告的第一个语义表示;
63、特征融合模块,所述特征融合模块用于将数据信息量报告特征与压缩文件特征进行特征融合;
64、切片存储模块,所述切片存储模块用于存储特征融合完成的数据切。
65、进一步地,所述数据切片模块包括以下工作步骤:
66、c1,接收数据压缩模块压缩完成的压缩文件;
67、c2,收集压缩文件接收模块接收的压缩文件的数据信息量,并生成数据信息量报告;
68、c3,压缩文件切片模块对压缩文件接收模块接收的压缩文件进行切片;
69、c4,压缩文件特征提取模块对压缩文件特征进行单段切片处理与多段切片处理后进行压缩文件特征提取;
70、c5,数据信息量报告特征提取模块用于数据信息量报告特征提取;
71、c6,通过特征融合模块进行数据信息量报告特征与压缩文件特征进行特征融合;
72、c7,对存储特征融合完成的数据切片进行存储。
73、进一步地,所述单段切片处理包括以下步骤:
74、d1,通过增加包含数据信息量报告和压缩文件中都出现的关键词的程序切片的注意力权重,来提升缺陷定位的性能,片段的黄金注意力权重计算公式如下:
75、;
76、其中,nkey代表存在于缺陷报告和切片中的不同关键词数量;
77、d2,关键词监督损失[19]如下
78、;
79、其中,代表了黄金注意力权重,αi代表了模型所计算的权重,λ是超参数;
80、d3,根据所计算的注意力权重,对多行切片的语义表示进行加权,并将它作为源文件的第一个语义表示。
81、进一步地,所述多段切片处理包括以下步骤:
82、e1,对所有单行切片进行分词,并获取一个单词集合;
83、e2,使用逆文档频率作为单词权重,以区分每个单词对单行切片的词级别的语义表示的贡献;
84、e3,使用逆文档频率来对单词集合中的所有单词的向量进行加权,
85、e4,将单词集合中的所有加权后的单词向量相加并取平均值,作为源代码文件的第二个特征。
86、与现有技术相比,本发明提供的一种大数据信息分析管理系统,通过数据识别模块分析数据信息中信息含量,不仅可以在数据信息中分辨僵尸信息数据,同时可以实现数据分析操作,通过数据压缩模块将僵尸信息数据与有效数据信息通过不同压缩方式进行数据压缩,减少数据存储所需的存储空间,通过数据切片模块剪切僵尸信息数据中各段信息,且将多个数据信息中相同的数据段仅保留一份,这样可以减少数据存储空间,这样设置不仅可以实现僵尸信息数据的分辨,同时针对相似的僵尸信息数据进行进一步的数据压缩,同时保证在进行数据调用恢复时将数据恢复至最初的状态。
1.一种大数据信息分析管理系统,其特征在于,包括:
2.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述数据识别模块包括:
3.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述数据识别模块包括以下工作步骤:
4.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述数据分类模块包括:
5.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述数据分类模块包括以下工作步骤:
6.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述数据切片模块包括:
7.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述数据切片模块包括以下工作步骤:
8.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述单段切片处理包括以下步骤:
9.根据权利要求1所述的一种大数据信息分析管理系统,其特征在于,所述多段切片处理包括以下步骤: