本申请涉及人工智能,尤其涉及一种样本数据的平衡、模型训练、分类方法、装置与设备。
背景技术:
1、保险核保,通常是指保险公司对投保人的投保申请进行审查、核定和选择风险,以识别标准体和非标准体的过程。如,对于人身保险的核保,保险公司通过评估被保险人的健康状态、职业类别等信息以识别核保标准体和非标准体。
2、其中,标准体,通常是指经核保认为身体各指标正常,保险公司能够按照标准保费正常承保的群体;非标准体,是指除标准体之外的投保群体,通常身体存在指标异常,保险公司不能按照标准保费正常承保的群体。
3、准确的识别标准体和非标准体可以帮助保险公司降低风险,有效防范保险欺诈行为。
4、目前,随着大数据分析和机器学习建模技术的发展,保险公司通常利用机器学习算法挖掘投保人、被保人、投保申请等历史数据中的特征与趋势进行标准体、非标准体的预测。一般方法包括:
5、通过整合保单、投保人、被保人、代理人的数据构建起原始数据集;
6、将原始数据集中标准体的数据标记为正样本(其标签可以为1)、非标准体的数据标记负样本(其标签可以为0),将核保决定作为分类结果,利用原始数据集,按照监督学习的方式训练二分类模型;
7、基于训练好的模型对不同投保申请进行标准体、非标准体的概率预测。
8、在上述利用机器学习算法预测标准体、非标准体时,由于原始数据集的样本不平衡(通常标准体与非标准体的数量比为1:10),使用这样的原始数据集对二分类模型进行训练,容易导致训练得到的二分类模型在进行类别预测时,更倾向于输出原始数据集中数量占比较大的类别所对应的分类结果,即,模型更容易输出待预测对象为非标准体的结果。
9、针对上述问题,如何平衡原始数据集中不同类别样本的数量,以避免上述模型预测结果出现明显倾向性,是亟待解决的问题。
技术实现思路
1、本申请实施例提供一种样本数据的平衡、模型训练、分类方法、装置与设备,用以解决如何平衡原始数据集中不同类别样本的数量,以避免出现模型预测结果具有明显倾向性的问题。
2、本申请实施例采用下述技术方案:
3、一种样本数据的平衡方法,包括:
4、根据初始样本集中各样本类别下的样本数量,从初始样本集中获取样本数量少的样本类别下的样本,作为少数类样本;
5、基于所述少数类样本,获取采用将初始样本集映射至线性空间的方式,所得到的各所述少数类样本各自的近邻样本;
6、根据所述各样本类别下的多数类样本的数量与所述少数类样本的数量的比例、各所述少数类样本以及各所述近邻样本,生成目标数量的新的少数类样本;所述目标数量基于所述比例确定;
7、将所述新的少数类样本加入所述初始样本集。
8、一种分类模型的训练方法,包括:
9、获取样本集;所述样本集包括初始样本和新的少数类样本;
10、将所述样本集输入待训练的分类模型,进行迭代训练,以及,在所述迭代训练的过程中,根据前一次训练的对目标样本的预测结果的准确性,在后一次训练时,调整所述目标样本的权重;至满足所述分类模型的迭代条件时,得到训练后的分类模型:所述权重与分类模型对目标样本的关注程度相关;
11、所述新的少数类样本,根据上述平衡方法得到。
12、一种分类方法,包括:
13、获取待分类的目标数据;
14、将所述目标数据输入训练好的分类模型,得到所述目标数据的分类结果;
15、其中,所述分类模型,采用上述训练方法训练得到。
16、一种样本数据的平衡装置,包括:
17、少数类样本选取模块,根据初始样本集中各样本类别下的样本数量,从初始样本集中获取样本数量少的样本类别下的样本,作为少数类样本;
18、临近样本确定模块,基于所述少数类样本,获取采用将初始样本集映射至线性空间的方式,所得到的各所述少数类样本各自的近邻样本;
19、新样本生成模块,根据所述各样本类别下的多数类样本的数量与所述少数类样本的数量的比例、各所述少数类样本以及各所述近邻样本,生成目标数量的新的少数类样本;所述目标数量基于所述比例确定;
20、样本平衡模块,用于将所述新的少数类样本加入所述初始样本集。
21、一种分类装置,包括:
22、目标获取模块,用于获取待分类的目标数据;
23、分类处理模块,用于将所述目标数据输入训练好的分类模型,得到所述目标数据的分类结果;
24、其中,所述分类模型,采用上述的训练方法训练得到。
25、一种计算设备,包括:存储器及处理器,其中,
26、所述存储器,用于存储计算机程序;
27、所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于执行上述的方法。
28、一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述的方法。
29、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
30、根据初始样本集各类别下样本数量少的少数类样本、少数类样本在线性空间的近邻样本,以及,多数类样本和少数量样本的比例,生成目标数量的新的少数类样本,将新的少数类样本加入初始样本集,增加样本集中少数类样本的数量,实现了样本集中各样本类别下的样本数量的平衡,从而可以解决现有技术样本集中样本类别不平衡造成的模型预测结果具有明显倾向性的问题。
1.一种样本数据的平衡方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,根据所述各样本类别下的多数类样本的数量与所述少数类样本的数量的比例、各所述少数类样本以及各所述近邻样本,生成目标数量的新的少数类样本,包括:
3.如权利要求2所述的方法,其特征在于,确定该少数类样本对应的新样本的生成方式,包括:
4.一种分类模型的训练方法,其特征在于,包括:
5.如权利要求4所述的方法,其特征在于,所述分类模型包括串行集成的至少两个弱学习器,则,
6.一种分类方法,其特征在于,包括:
7.一种样本数据的平衡装置,其特征在于,包括:
8.一种分类装置,其特征在于,包括:
9.一种计算设备,其特征在于,包括:存储器及处理器,其中,
10.一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现权利要求1~6任一权项所述的方法。