本发明涉及电网数据处理,尤其涉及一种电网数据类型标注方法及装置。
背景技术:
1、电网作为一种复杂的基础设施,其中的数据种类繁多,包括但不限于供电网结构数据、电力消费数据、天气条件、历史故障记录等。这些数据来源包括地理信息系统(gis),遥感技术,物联网(iot)传感器,以及业务运营系统等,每种数据都有自己特定的格式、更新频率、精度要求和储存方式,系统必须能够整合这些不同来源且结构异构的数据。而且电网数据的应用场景也相当广泛,例如,在预测和应对电网故障时,需要结合历史故障数据、实时传感器监测数据以及影响电网运行的外部环境数据,如恶劣天气。在日常维护和升级规划中,需要用到电网结构、负载情况、设备老化状况等数据,每种情景都对数据处理和更新提出了不同的需求。
2、另外,电网数据本身也非常动态,由于新的电网设施持续建设,旧设施的更替,以及消费模式的变化,电网的数据持续面临着更新需求,同时,随着技术的进步,新类型的传感器和数据采集手段不断涌现,使得在对电网数据进行采集和分析时需要耗费大量的人力,效率低下且准确性也较低。
技术实现思路
1、为了解决上述技术问题,本发明实施例提供了一种电网数据类型标注方法及装置,实现了对电网数据的标注,从而提高了电网数据分析效率。
2、本发明实施例的第一方面提供了一种电网数据类型标注方法,方法包括:
3、采集待标注电网系统中不同子系统的数据,对各个数据进行格式识别,得到各个电网数据的初始格式;
4、根据各个数据的初始格式,利用数据格式标准化规则对数据进行格式转换,得到多个标准格式的数据;
5、构建动态数据模型,根据动态数据模型对各个标准格式的数据进行清洗和验证,得到有效数据,对有效数据进行数据编码转换,得到数值型数据;
6、对数值型数据进行预处理后,在对数值型数据进行降维处理,得到特征集合,根据特征集合,利用交叉验证方法对神经网络模型进行训练得到评估模型,根据评估模型进行数据预测,得到预测结果,并将预测结果映射到特征集合中,得到标注结果,若标注结果不满足预设质量条件,则继续利用交叉验证方法对神经网络模型进行训练得到新评估模型,利用新评估模型进行数据预测,直到得的标注结果满足预设质量条件。
7、在第一方面的一种可能的实现方式中,根据各个数据的初始格式,利用数据格式标准化规则对数据进行格式转换,得到多个标准格式的数据,包括:
8、对数据的类型进行判断,若数据类型与标准类型不同,则将数据的类型转换为标准类型,对数据的长度进行测量,若长度大于预设长度,则进行截断处理;
9、判断类型为日期或数值的数据是否满足预设范围,若不满足,则将数据调整到预设范围内;
10、对需要特征格式的数据进行格式匹配,若不能进行格式匹配,则对数据进行格式标准化;
11、对数据的字符编码进行转换,得到满足编码条件的数据,判断数据的字段名称是否符合命名规则,若不符合,则对所字段名称进行重新命名,将数据的精度和属性调整为标准化的精度和属性。
12、在第一方面的一种可能的实现方式中,构建动态数据模型,包括:
13、根据标准格式的数据,对数据中的实体及属性进行定义,得到第一数据表;
14、根据第一数据表设计时间序列数据库,以使人员将各个标准格式的数据存储到时间序列数据库中。
15、在第一方面的一种可能的实现方式中,根据动态数据模型对各个标准格式的数据进行清洗和验证,得到有效数据,包括:
16、对各个标准格式的数据进行完整性检查,若存在数据缺失,则对缺失的数据进行补充,得到完整数据集;
17、对完整数据集与数据进行一致性校验,若完整数据集中的数据与数据不一致,则进行关联性分析,使完整数据集中的数据与数据一致;
18、对完整数据集与真实值进行比对,若完整数据集中的数据与真实值不一致,则进行关联性分析,使完整数据集中的数据与数据一致;
19、对完整数据集进行格式有效性检查和错误检查,若存在格式不一致,则对完整数据集进行格式转换,得到格式统一的完整数据集,若完整数据集存在错误,则利用错误定位算法进行定位,得到错误位置,根据错误位置对数据进行修改;
20、对完整数据集进行重复项判断,若存在重复项,则进行缺失值补充或重复项删除操作,最终得到有效数据。
21、在第一方面的一种可能的实现方式中,对有效数据进行数据编码转换,得到数值型数据,包括:
22、对有效数据内的单位和格式进行标准化处理,得到标准化后的有效数据;
23、根据标准化后的有效数据的类别,使用分类编码算法对标准化后的有效数据进行数值编码转换,得到数值型数据。
24、在第一方面的一种可能的实现方式中,在得到标注结果后,还包括:
25、利用预设分布式文件系统将标注结果进行存储,以使预设分布式文件系统将标注结果中的数据分布在各个节点上,并得到各个节点的状态信息;
26、对各个节点的状态信息进行故障判断,若节点发生故障,则利用其他节点的副本进行数据恢复;
27、利用预设分布式文件系统中的预设更新服务对各个节点中的数据进行更新;
28、利用预设数据访问接口获取预设分布式文件系统中的数据。
29、本发明实施例的第二方面提供了一种电网数据类型标注装置,装置包括:
30、采集模块,用于采集待标注电网系统中不同子系统的数据,对各个所述数据进行格式识别,得到各个所述电网数据的初始格式;
31、转换模块,用于根据各个所述数据的初始格式,利用数据格式标准化规则对所述数据进行格式转换,得到多个标准格式的数据;
32、构建模块,用于构建动态数据模型,根据所述动态数据模型对各个所述标准格式的数据进行清洗和验证,得到有效数据,对所述有效数据进行数据编码转换,得到数值型数据;
33、标注模块,用于对所述数值型数据进行预处理后,在对所述数值型数据进行降维处理,得到特征集合,根据所述特征集合,利用交叉验证方法对神经网络模型进行训练得到评估模型,根据所述评估模型进行数据预测,得到预测结果,并将所述预测结果映射到特征集合中,得到标注结果,若所述标注结果不满足预设质量条件,则继续利用交叉验证方法对神经网络模型进行训练得到新评估模型,利用新评估模型进行数据预测,直到得的标注结果满足预设质量条件。
34、在第二方面的一种可能的实现方式中,转换模块包括类型判断单元、日期判断单元、格式匹配单元和编码单元,
35、其中,类型判断单元用于对数据的类型进行判断,若数据类型与标准类型不同,则将数据的类型转换为标准类型,对数据的长度进行测量,若长度大于预设长度,则进行截断处理;
36、日期判断单元用于判断类型为日期或数值的数据是否满足预设范围,若不满足,则将数据调整到预设范围内;
37、格式匹配单元用于对需要特征格式的数据进行格式匹配,若不能进行格式匹配,则对数据进行格式标准化;
38、编码单元用于对数据的字符编码进行转换,得到满足编码条件的数据,判断数据的字段名称是否符合命名规则,若不符合,则对所字段名称进行重新命名,将数据的精度和属性调整为标准化的精度和属性。
39、在第二方面的一种可能的实现方式中,构建模块包括定义单元和数据库设计单元,
40、其中,定义单元用于根据标准格式的数据,对数据中的实体及属性进行定义,得到第一数据表;
41、数据库设计单元用于根据第一数据表设计时间序列数据库,以使人员将各个标准格式的数据存储到时间序列数据库中。
42、在第二方面的一种可能的实现方式中,构建模块还包括缺失检查单元、一致性校验单元、对比单元、错误检查单元和判断单元,
43、其中,缺失检查单元用于对各个标准格式的数据进行完整性检查,若存在数据缺失,则对缺失的数据进行补充,得到完整数据集;
44、一致性校验单元用于对完整数据集与数据进行一致性校验,若完整数据集中的数据与数据不一致,则进行关联性分析,使完整数据集中的数据与数据一致;
45、对比单元用于对完整数据集与真实值进行比对,若完整数据集中的数据与真实值不一致,则进行关联性分析,使完整数据集中的数据与数据一致;
46、错误检查单元用于对完整数据集进行格式有效性检查和错误检查,若存在格式不一致,则对完整数据集进行格式转换,得到格式统一的完整数据集,若完整数据集存在错误,则利用错误定位算法进行定位,得到错误位置,根据错误位置对数据进行修改;
47、判断单元用于对完整数据集进行重复项判断,若存在重复项,则进行缺失值补充或重复项删除操作,最终得到有效数据。
48、本发明通过采集待标注电网系统中不同子系统的数据,对各个数据进行格式识别,得到各个电网数据的初始格式,根据各个数据的初始格式,利用数据格式标准化规则对数据进行格式转换,得到多个标准格式的数据,构建动态数据模型,根据动态数据模型对各个标准格式的数据进行清洗和验证,得到有效数据,对有效数据进行数据编码转换,得到数值型数据,对数值型数据进行预处理后,在对数值型数据进行降维处理,得到特征集合,根据特征集合,利用交叉验证方法对神经网络模型进行训练得到评估模型,根据评估模型进行数据预测,得到预测结果,并将预测结果映射到特征集合中,得到标注结果,若标注结果不满足预设质量条件,则继续利用交叉验证方法对神经网络模型进行训练得到新评估模型,利用新评估模型进行数据预测,直到得的标注结果满足预设质量条件,本发明实现了对电网数据的标注,从而提高了电网数据分析效率。
1.一种电网数据类型标注方法,其特征在于,包括:
2.如权利要求1所述的电网数据类型标注方法,其特征在于,所述根据各个所述数据的初始格式,利用数据格式标准化规则对所述数据进行格式转换,得到多个标准格式的数据,包括:
3.如权利要求1所述的电网数据类型标注方法,其特征在于,所述构建动态数据模型,包括:
4.如权利要求1所述的电网数据类型标注方法,其特征在于,所述根据所述动态数据模型对各个所述标准格式的数据进行清洗和验证,得到有效数据,包括:
5.如权利要求1所述的电网数据类型标注方法,其特征在于,所述对所述有效数据进行数据编码转换,得到数值型数据,包括:
6.如权利要求1所述的电网数据类型标注方法,其特征在于,在得到所述标注结果后,还包括:
7.一种电网数据类型标注装置,其特征在于,包括:
8.如权利要求7所述的电网数据类型标注装置,其特征在于,所述转换模块包括类型判断单元、日期判断单元、格式匹配单元和编码单元,
9.如权利要求7所述的电网数据类型标注装置,其特征在于,所述构建模块包括定义单元和数据库设计单元,
10.如权利要求7所述的电网数据类型标注装置,其特征在于,所述构建模块还包括缺失检查单元、一致性校验单元、对比单元、错误检查单元和判断单元,