数据集质量评估方法、系统、电子设备及存储介质与流程

专利检索2025-05-26  7


本技术涉及数据处理,尤其涉及一种数据集质量评估方法、系统、电子设备及存储介质。


背景技术:

1、数据集通常包括结构化数据和非结构化数据。结构化数据是按照预定义的数据模型进行组织的数据,具有明确定义的格式和结构,通常以表格形式呈现,每个数据字段都有明确的名称和数据类型,常见的结构化数据包括数字、文本、日期和时间、价格等。非结构化数据是没有固定格式或结构的数据,通常以自由形式的文本、多媒体内容(如图像、音频和视频)、电子邮件、社交媒体帖子、网页等形式存在。

2、相关技术中,由于结构化数据集中每个样本的内容和特征相似,可以通过计算均值、方差、离散度等通用的评价框架来评估整个结构化数据集,但是,由于非结构化数据集中每个样本的内容和特征都是不同的,所以无法使用通用的评价框架来评估,仅能通过针对特定任务或特定需求对单个样本进行评分来评估非结构化数据集,无法全面反映整个数据集的特征和质量,这样会忽视全局信息,从而降低了数据集质量评估的可靠性,降低了数据集的评估质量。


技术实现思路

1、本技术实施例的主要目的在于提出一种数据集质量评估方法、系统、电子设备及存储介质,能够提高数据集质量评估的可靠性,提高数据集的评估质量。

2、为实现上述目的,本技术实施例的第一方面提出了一种数据集质量评估方法,所述方法包括:获取目标数据集和目标任务样本集,所述目标数据集包括多个类别的样本数据,所述目标任务样本集包括多个类别的目标任务数据;确定每个所述样本数据的重叠度,并基于所述重叠度确定每个所述样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于所述样本数据的伪标签确定对应的置信度,根据所述置信度和对应类别下的所述置信度阈值确定每个所述样本数据的第二单样本评分;在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分;基于所述第一单样本评分、所述第二单样本评分和所述数据集评分确定所述目标数据集的质量评估结果。

3、在一些实施例中,所述确定每个所述样本数据的重叠度,包括:基于目标检测器获取每个所述样本数据的目标定位区域;对所述样本数据进行抽样得到抽样数据,计算所述抽样数据的查准率和查全率,根据所述查准率和所述查全率得到所述目标检测器在所述抽样数据中的平均性能;根据所述平均性能确定所述目标检测器的最佳置信度阈值;根据所述最佳置信度阈值,校准所述样本数据的所述目标定位区域;根据所述样本数据的所述目标定位区域中的信息量占所述样本数据的总信息量的比值,得到每个所述样本数据的重叠度。

4、在一些实施例中,所述基于所述重叠度确定每个所述样本数据的第一单样本评分,包括:获取根据自定义评估标准对所述样本数据进行评估得到的评估分数;获取所述评估分数和所述重叠度分别对应的权重值;根据所述评估分数和所述重叠度及分别对应的所述权重值,确定每个所述样本数据的第一单样本评分。

5、在一些实施例中,所述获取每个类别下预设的置信度阈值,包括:获取标注有真实标签的标签样本集,所述标签样本集包括多个类别的标签数据;基于所述标签数据的所述真实标签,在不同类别下计算对应类别的所述标签数据的标签置信度;在每个类别下,计算对应的所述标签置信度的平均值,确定对应类别下的置信度阈值。

6、在一些实施例中,所述基于所述样本数据的伪标签确定对应的置信度,根据所述置信度和对应类别下的所述置信度阈值确定每个所述样本数据的第二单样本评分,包括:获取所述样本数据的伪标签,基于所述伪标签确定对应的置信度;当所述样本数据的所述置信度不超过对应类别下的所述置信度阈值,剔除所述样本数据,对所述目标数据集进行清洗;根据所述目标数据集中所述样本数据的所述置信度和对应类别下的所述置信度阈值,确定每个所述样本数据的第二单样本评分。

7、在一些实施例中,所述在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分,包括:在相同类别下,获取所述目标数据集中对应类别的多个所述样本数据的样本分布,获取所述目标任务样本集中对应类别的多个所述目标任务数据的目标任务分布;基于相对熵计算每一类别下对应类别的所述样本分布与所述目标任务分布之间的分布距离;根据不同类别下的所述分布距离的平均值确定所述目标数据集与所述目标任务样本集之间的数据集评分。

8、在一些实施例中,所述在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分,包括:在相同类别下,获取多个所述样本数据和多个所述目标任务数据,基于特征提取器提取多个所述样本数据的样本特征和多个所述目标任务数据的目标任务特征;在每一类别下,计算所述样本特征与所述目标任务特征之间的特征距离;根据不同类别下的所述特征距离的平均值确定所述目标数据集与所述目标任务样本集之间的数据集评分。

9、在一些实施例中,所述在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分,包括:获取多个所述样本数据的样本特征和多个所述目标任务数据的目标任务特征,基于所述样本特征围绕所述目标任务特征进行聚类分析;获取不同类别下所述目标任务特征的聚类中心;在相同类别下,计算对应类别下的所述样本特征与对应类别的所述聚类中心的中心距离;根据不同类别下的所述中心距离的平均值和方差,确定所述目标数据集与所述目标任务样本集之间的离散程度。

10、为实现上述目的,本技术实施例的第二方面提出了一种数据集质量评估系统,包括:数据集获取模块,用于获取目标数据集和目标任务样本集,所述目标数据集包括多个类别的样本数据,所述目标任务样本集包括多个类别的目标任务数据;第一单样本评分模块,用于确定每个所述样本数据的重叠度,并基于所述重叠度确定每个所述样本数据的第一单样本评分;第二单样本评分模块,用于获取每个类别下预设的置信度阈值,并基于所述样本数据的伪标签确定对应的置信度,根据所述置信度和对应类别下的所述置信度阈值确定每个所述样本数据的第二单样本评分;数据集评分模块,用于在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分;质量评估模块,用于基于所述第一单样本评分、所述第二单样本评分和所述数据集评分确定所述目标数据集的质量评估结果。

11、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面实施例所述的方法。

12、为实现上述目的,本技术实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面实施例所述的方法。

13、本技术提出的数据集质量评估方法、系统、电子设备及存储介质,具有以下有益效果:获取目标数据集和目标任务样本集;确定每个样本数据的重叠度,并基于重叠度确定每个样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于样本数据的伪标签确定对应的置信度,根据置信度和对应类别下的置信度阈值确定每个样本数据的第二单样本评分;在相同类别下,确定多个样本数据与多个目标任务数据之间的分布距离,根据不同类别下的分布距离确定目标数据集与目标任务样本集之间的数据集评分;基于第一单样本评分、第二单样本评分和数据集评分确定目标数据集的质量评估结果。方法考虑了重叠度、置信度等因素,基于第一单样本评分和第二单样本评分为每个样本数据分配分数,同时综合考虑全局信息,对样本数据的分布进行分析,从整个数据集和下游任务的角度来考虑目标数据集的质量,从而获得目标数据集对于目标任务而言的质量、多样性以及分布差异,更全面地反映整个数据集的特征和质量水平,能够提高数据集质量评估的可靠性,提高数据集的评估质量。


技术特征:

1.一种数据集质量评估方法,其特征在于,包括:

2.根据权利要求1所述的数据集质量评估方法,其特征在于,所述确定每个所述样本数据的重叠度,包括:

3.根据权利要求1所述的数据集质量评估方法,其特征在于,所述基于所述重叠度确定每个所述样本数据的第一单样本评分,包括:

4.根据权利要求1所述的数据集质量评估方法,其特征在于,所述获取每个类别下预设的置信度阈值,包括:

5.根据权利要求1所述的数据集质量评估方法,其特征在于,所述基于所述样本数据的伪标签确定对应的置信度,根据所述置信度和对应类别下的所述置信度阈值确定每个所述样本数据的第二单样本评分,包括:

6.根据权利要求1所述的数据集质量评估方法,其特征在于,所述在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分,包括:

7.根据权利要求1所述的数据集质量评估方法,其特征在于,所述在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分,包括:

8.根据权利要求1所述的数据集质量评估方法,其特征在于,所述在相同类别下,确定多个所述样本数据与多个所述目标任务数据之间的分布距离,根据不同类别下的所述分布距离确定所述目标数据集与所述目标任务样本集之间的数据集评分,包括:

9.一种数据集质量评估系统,其特征在于,包括:

10.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的数据集质量评估方法。

11.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的数据集质量评估方法。


技术总结
本申请实施例提供了一种数据集质量评估方法、系统、电子设备及存储介质,属于数据处理技术领域。方法包括:获取目标数据集和目标任务样本集;确定每个样本数据的重叠度,并基于重叠度确定每个样本数据的第一单样本评分;获取每个类别下预设的置信度阈值,并基于样本数据的伪标签确定对应的置信度,根据置信度和对应类别下的置信度阈值确定每个样本数据的第二单样本评分;在相同类别下,确定多个样本数据与多个目标任务数据之间的分布距离,根据不同类别下的分布距离确定目标数据集与目标任务样本集之间的数据集评分;基于第一单样本评分、第二单样本评分和数据集评分确定目标数据集的质量评估结果,提高数据集的评估质量。

技术研发人员:王耀威,张新宇,苏敬勇,肖伟伟,胡孟豪,山其本,王小玲,邓昊
受保护的技术使用者:鹏城实验室
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1154188.html

最新回复(0)