本申请属于电力设备,特别是涉及一种变压器样本扩容方法、计算机设备和计算机可读存储介质。
背景技术:
1、在对于变压器运行状态的研究和监控中,变压器运行数据具有重要意义。然而,当前在其处理过程中存在一些问题。首先,变压器运行数据的数据量相对较少,其中少数样本代表潜在的变压器故障情况,而大多数数据反映正常运行状态。其次,采集到的数据可能存在质量问题,如数据缺失或异常。尽管现有技术采用了一系列方法来解决这些问题,如合成少数派过采样技术(synthetic minority over-sampling technique,smote),但仍然存在一些挑战。smote在生成合成数据时,仅仅依赖于少数派样本之间的线性插值,而无法充分考虑样本在特征空间中的分布和特性。这可能导致一些生成的合成样本处于数据分布的边界或噪声区域,从而影响其质量和对模型的价值。
2、为此如何得到数量足够、且质量有保证的变压器运行数据,是本领域技术人员亟待解决的技术问题。
3、前面的叙述在于提供一般的背景信息,并不一定构成现有技术。
技术实现思路
1、基于此,有必要针对上述问题,提出了一种变压器样本扩容方法、计算机设备和计算机可读存储介质,能够对数量较少的、真实的变压器运行数据进行学习、拓展,生成数量众多的第二样本。
2、本申请解决其技术问题是采用以下的技术方案来实现的:
3、本申请提供了一种变压器样本扩容方法,包括如下步骤:根据第一变压器运行数据生成第一数据集,第一变压器运行数据是真实情况下采集的变压器运行数据,第一数据集包括多个第一样本,及第一样本对应的第一类别标签;通过预设算法对第一样本集进行学习后进行扩容,得到第二样本和特征向量平均值,第二样本为模拟生成的变压器运行数据;根据特征向量平均值计算得到置信度阈值,利用置信度阈值对第二样本进行筛选以得到第三样本;合并第一样本和第三样本以得到第二数据集。
4、在本申请一可选实施例中,通过预设算法对第一样本集进行学习后进行扩容得到第二样本,包括:使用smote算法获取每一个第一样本的第一特征向量;选定任意一第一样本标记为原始样本,获取原始样本的第一特征向量标记为原始特征向量,及与原始样本最邻近的第一样本对应的第一特征向量标记为邻近特征向量;取原始样本对应的插值权重,根据插值权重、原始特征向量和邻近特征向量计算得到合成特征向量,计算过程为:
5、
6、式中,为合成特征向量,为原始特征向量,λ为插值权重,为邻近特征向量;根据合成特征向量生成第二样本。
7、在本申请一可选实施例中,通过预设算法对第一样本集进行学习后进行扩容得到特征向量平均值,包括:通过预设算法获取第一样本的第一特征向量;根据第一类别标签对第一样本进行分类,以得到至少一个样本类别,样本类别内包括至少一个第一样本;根据样本类别内第一样本的第一特征向量,求得样本类别对应的特征向量平均值。
8、在本申请一可选实施例中,根据特征向量平均值计算得到置信度阈值,包括:通过预设算法获取第二样本的第二特征向量,根据第二特征向量和特征向量平均值计算得到余弦相似度,计算过程为:
9、
10、式中,表示特征向量平均值;表示第二特征向量;表示向量与向量的点积;|| ||表示向量的范数;获取控制参数,控制参数包括斜率控制参数和阈值中心控制参数;根据控制参数和余弦相似度求得置信度阈值,计算过程为:
11、
12、式中,t表示置信度阈值;k是斜率控制参数,c是阈值中心控制参数。
13、在本申请一可选实施例中,根据控制参数和余弦相似度求得置信度阈值,包括:根据第一类别标签对第一样本进行分类,以得到至少一个样本类别,样本类别内包括至少一个第一样本;获取与第二样本最接近的样本类别的类别特征向量平均值,与样本类别的相关性系数评分;根据第二特征向量和类别特征向量平均值求得幅值相近度,计算过程为:
14、
15、式中,d为幅值相近度;为样本类别i的类别特征向量平均值;根据余弦相似度、相关性系数评分和幅值相近度求得综合相关性评分,计算过程为:
16、
17、式中,θ为综合相关性评分;r为相关性系数评分;根据控制参数、综合相关性评分和余弦相似度求得置信度阈值,计算过程为:
18、
19、在本申请一可选实施例中,利用置信度阈值对第二样本进行筛选以得到第三样本,包括:通过预设算法获取第二样本的第二特征向量;将第二特征向量不满足置信度阈值的第二样本移除;遍历所有第二样本后,将剩余的第二样本标记为第三样本。
20、在本申请一可选实施例中,根据第一变压器运行数据生成第一数据集,包括:对第一变压器运行数据执行预处理操作以得到第一样本,预处理操作包括数据清洗、去噪、特征提取中的至少一项;提取第一样本的特征值,根据特征值赋予第一样本对应的第一类别标签;汇总第一样本和对应的第一类别标签以得到第一数据集。
21、在本申请一可选实施例中,合并第一样本和第三样本以得到第二数据集,包括:比对第一样本和第三样本,移除与第一样本数值相同的第三样本;将剩余的第三样本和第一样本合并以得到第二数据集。
22、本申请还提供了一种计算机设备,包括处理器和存储器:处理器用于执行存储器中存储的计算机程序以实现如前述的方法。
23、本申请还提供了一种计算机可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现如前述的方法。
24、采用本申请实施例,具有如下有益效果:
25、本申请能够对数量较少的、真实的变压器运行数据进行学习、拓展,生成数量众多的第二样本。第二样本是模拟生成的、虚拟的变压器运行数据。进一步地,在学习由真实的变压器运行数据构成的第一样本的过程中,同样会生成得到一置信度阈值。该置信度阈值能够对第二样本进行筛选,从而能够有效地筛选出质量更高且与真实数据更相似的合成样本。也即能够更加精确地控制生成数据的质量,有效地降低了噪声样本的影响,以及提高了生成样本与真实数据之间的一致性。从而解决合成样本质量不足的问题,提高模型在面对数据不平衡问题时的性能,使得有更多的变压器数据样本对变压器学习,增加对变压器的方法应用,例如将更精确地预测潜在的变压器故障状态等。
26、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
1.一种变压器样本扩容方法,其特征在于,包括如下步骤:
2.如权利要求1所述的变压器样本扩容方法,其特征在于,所述通过预设算法对所述第一样本集进行学习后进行扩容得到第二样本,包括:
3.如权利要求1所述的变压器样本扩容方法,其特征在于,所述通过预设算法对所述第一样本集进行学习后进行扩容得到特征向量平均值,包括:
4.如权利要求1所述的变压器样本扩容方法,其特征在于,所述根据所述特征向量平均值计算得到置信度阈值,包括:
5.如权利要求4所述的变压器样本扩容方法,其特征在于,所述根据所述控制参数和所述余弦相似度求得所述置信度阈值,包括:
6.如权利要求1所述的变压器样本扩容方法,其特征在于,所述利用所述置信度阈值对所述第二样本进行筛选以得到第三样本,包括:
7.如权利要求1所述的变压器样本扩容方法,其特征在于,所述根据第一变压器运行数据生成第一数据集,包括:
8.如权利要求1所述的变压器样本扩容方法,其特征在于,所述合并所述第一样本和所述第三样本以得到第二数据集,包括:
9.一种计算机设备,其特征在于,包括处理器和存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到8中任一项所述方法。