本技术涉及模型分析,尤其涉及一种解析特征多元影响的分析方法、系统、设备及介质。
背景技术:
1、数据作为信息和知识的源泉,不仅能够反映事物的当前状态,更能揭示其中隐藏的规律和趋势。数据的爆炸性增长,使其规模达到了传统方法的处理极限,加之大数据的多样性、时效性以及复杂性,在科学研究、商业决策、社会管理等领域引发了前所未有的挑战和机遇。因此,迫切需要深入研究数据分析与挖掘方法,以实现信息价值最大化,来应对大数据背景下的新挑战。数据分析与挖掘作为大数据应用的核心环节,通过对数据的深度处理,获取海量信息中事物的规律和趋势,为各个领域提供洞察和理解的依据。
2、传统的统计方法为数据分析与挖掘提供了可靠的分析手段,确保提炼出的信息与知识具有可信度,进而得到合理的解释和解读。其中,多元统计方法通过处理高维数据,揭示变量之间的复杂关系,为研究提供更为全面的数据分析。多元统计分析包括回归分析、聚类分析、主成分分析等方法,这些处理和理解多维数据的方法,为机器学习捕获特征的多元关系提供了理论基础与方法。机器学习通过构建模型,学习数据中的规律和模式,实现对大数据的智能分析,为数据分析与挖掘提供了更加灵活和智能的手段。由于机器学习的高弹性和容错性,在回归和分类问题中表现良好,其研究逐渐受到广泛关注。但机器学习模型高维的特征空间及其复杂的运算机制,使得模型预测难以被直观理解,无法通过解析模型的预测来分析与挖掘数据。可解释性机器学习的突破让机器学习模型的预测逻辑变得清晰明白,目前,可解释性机器学习的数据分析与挖掘研究相对有限。
3、特征重要度、部分依赖图分析和个体条件期望、shap(shapley additiveexplanations)等方法常用于可解释性机器学习的分析。特征重要度是指每个输入特征对于模型输出的影响程度,用以衡量模型中各个特征的相对重要性,从而帮助解释模型的预测过程。部分依赖图分析和个体条件期望用于理解输入特征与模型输出之间的响应关系,部分依赖图展示了模型输出随着某个特征变化时的平均趋势,而个体条件期望则是单个实例在某个特征上的条件期望。shap通过计算在所有可能的特征组合下的每个特征存在和不存在时模型预测差值的加权平均作为其边际贡献值,并将模型的预测值解释为每个输入特征的边际贡献与模型的平均输出之和,用于评估每个特征对于模型输出的贡献。基于特征重要性分析、部分依赖图分析和个体条件期望、shap等方法,融合机器学习和各领域的专业知识,运用可解释性机器学习可深入剖析模型的预测过程,挖掘数据背后的规律和模型预测的机制,从而进行精确、深入的因果关系分析和解释,为数据的分析与挖掘提供更精准的科学依据。但由于输入特征常存在复杂的关系或相互作用,对机器学习的可解释性分析产生不确定性。
技术实现思路
1、本技术提供了一种解析特征多元影响的分析方法、系统、设备及介质,将耦合相关的特征影响分离,解耦特征对可解释性分析的影响,解耦特征在不同途径下、不同特征组合下或不同特征取值下对可解释性机器学习预测分析的影响,以实现对特征多元影响的解析,以及特征之间影响关系的解耦。
2、为解决上述技术问题,第一方面,本技术提供了一种解析特征多元影响的分析方法,所述方法包括:
3、获取影响待分析事件结果的第一特征集,采集所述第一特征集对应的第一样本数据集和待分析事件结果,并对所述第一样本数据集进行数据预处理;
4、选择多个机器学习模型,采用预处理完成的第一样本数据集和对应的待分析事件结果对所选择的机器学习模型进行训练;
5、从所述第一特征集中选取特征解耦范围,并在所述第一特征集中去除所述特征解耦范围,获得待排除特征集;
6、采用训练完成的机器学习模型,对所述第一样本数据集进行排除所述待排除特征集中特征影响的机器学习,得到所述特征解耦范围的每组样本数据所对应的预测结果,所述预测结果已排除所述待排除特征集中特征对所述待分析事件结果的影响;
7、采用所述特征解耦范围的每组样本数据,以及所述对应的预测结果对所选择的机器学习模型进行重新训练;
8、对所述特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型进行可解释性分析,若可解释性分析结果为不合理,则重新选择、训练机器学习模型并进行可解释性分析,直至所述可解释性分析结果为合理,得到所述特征解耦范围中特征对所述待分析事件结果的影响。
9、优选的,采用训练完成的机器学习模型,对所述第一样本数据集进行排除所述待排除特征集中特征影响的机器学习,得到所述特征解耦范围的每组样本数据所对应的预测结果,包括:
10、将所述待排除特征集中每一个特征的样本数据采用穷尽式全随机组合方式进行组合,得到多个第一待排除特征样本数据集;
11、针对所述特征解耦范围的每组样本数据,分别与多个所述第一待排除特征样本数据集组合,以得到所述特征解耦范围的每组样本数据所对应的多个第二样本数据集;
12、将所述多个第二样本数据集输入训练完成的机器学习模型,输出第一预测结果并计算第一均值,将所述第一均值作为所述特征解耦范围的每组样本数据所对应的所述第一种预测结果。
13、优选的,所述预测结果还包括第二种预测结果;
14、采用训练完成的机器学习模型,对所述第一样本数据集进行排除所述待排除特征集中特征影响的机器学习,得到所述特征解耦范围的每组样本数据所对应的预测结果,还包括:
15、将所述待排除特征集中每一个特征的样本数据采用迭代不完全随机组合方式进行组合,得到多组第二待排除特征样本数据集;所述迭代不完全随机组合方式为:将待排除特征集中每一个待排除特征所对应的所有样本数据随机打乱,再将打乱后的每一特征的样本数据以随机打乱后的顺序进行组合,并重复特定次数,所述特定次数通过迭代的方式获取;
16、针对所述特征解耦范围的每组样本数据,分别与每次迭代的所述第二待排除特征样本数据集组合,以得到所述特征解耦范围的每组样本数据所对应的多组第三样本数据集;
17、将每次迭代的所述第三样本数据集输入训练完成的机器学习模型,输出第二预测结果并计算第二均值,将所述第二均值作为所述特征解耦范围的每组样本数据所对应的所述第二种预测结果。
18、优选的,将每次迭代的所述第三样本数据集输入训练完成的机器学习模型,输出第二预测结果并计算第二均值,将所述第二均值作为所述特征解耦范围的每组样本数据所对应的所述第二种预测结果,包括:
19、依次将每次迭代的所述第三样本数据集输入训练完成的机器学习模型,输出第二种预测结果并计算第二均值以及前后两次迭代第二均值的第一偏差值,当所述第一偏差值不大于第一阈值时,将最后一次输出的预测结果作为所述特征解耦范围的每组样本数据所对应的第二种预测结果。
20、优选的,所述预测结果还包括第三种预测结果;
21、采用训练完成的机器学习模型,对所述第一样本数据集进行排除所述待排除特征集中特征影响的机器学习,得到所述特征解耦范围的每组样本数据所对应的预测结果,还包括:
22、针对所述特征解耦范围的每组样本数据,依次选取所述待排除特征集中的一个特征作为待排除特征,针对每一个待排除特征,采用逐步排除单特征影响的方法,依次排除所述待排除特征集中所有特征对所述待分析事件结果的影响,得到所述特征解耦范围每组样本数据所对应的第三种预测结果;
23、所述逐步排除单特征影响的方法包括以下步骤:
24、从所述待排除特征集中选定第一个待排除特征,从所述第一特征集中删除所述第一个待排除特征,得到第一剩余特征集,将所述第一剩余特征集的每组样本数据与所述第一个待排除特征的每个样本数据分别进行组合,将组合后的样本数据集输入训练完成的机器学习模型,得到所述第一剩余特征集的每组样本数据所对应的第三预测结果并计算第三均值;所述第三均值为排除所述第一个待排除特征影响的预测结果;
25、采用所述第一剩余特征集的每组样本数据和对应的第三均值对所选择的机器学习模型进行第一次减项训练;
26、从所述待排除特征集中选定第二个待排除特征,从所述第一剩余特征集中删除所述第二个待排除特征,得到第二剩余特征集,将所述第二剩余特征集的每组样本数据与所述第二个待排除特征的每个样本数据分别进行组合,将组合后的样本数据集输入第一次减项训练完成的机器学习模型,得到所述第二剩余特征集的每组样本数据所对应的第四预测结果并计算第四均值;所述第四均值为排除所述第一个待排除特征和所述第二个待排除特征影响的预测结果;
27、采用所述第二剩余特征集的每组样本数据和对应的第四均值对第一次减项训练完成的机器学习模型进行第二次减项训练;
28、基于第二次减项训练完成的机器学习模型,依次排除所述待排除特征集中所有剩余特征对所述待分析事件结果的影响,直至得到所述特征解耦范围的每组样本数据所对应的第三种预测结果。
29、优选的,所述可解释性分析结果包括第一种可解释性分析结果和第二种可解释性分析结果;
30、对所述特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型进行可解释性分析,包括:
31、将所述特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型输入可解释性机器学习分析模型,得到不同机器学习模型所对应的特征解耦范围中每一个特征的第一边际贡献值;
32、计算不同机器学习模型所对应的第一边际贡献值的第二偏差值,当所述第二偏差值不大于预先设定的第二阈值时,则第一分析结果为合理,反之为不合理;
33、若所述特征解耦范围包括两个及两个以上特征,则将所述特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型输入shapley分析模型,得到不同机器学习模型所对应的特征解耦范围中任意两个特征相互之间的第二边际贡献值;
34、计算不同机器学习模型所对应的第二边际贡献值的第三偏差值,当所述第三偏差值不大于预先设定的第三阈值时,则第二分析结果为合理,反之为不合理;
35、对于所述特征解耦范围仅包括一个特征的情况,若所述第一分析结果为合理,则第一种可解释性分析结果为合理,反之为不合理;
36、对于所述特征解耦范围包括两个及两个以上特征的情况,若所述第一分析结果和所述第二分析结果均为合理,则第二种可解释性分析结果为合理,反之为不合理;
37、所述可解释性机器学习分析模型至少包括:shapley分析模型、lime分析模型。
38、优选的,所述可解释性分析结果还包括第三种可解释性分析结果;
39、所述对所述特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型进行可解释性分析,还包括:
40、从所述特征解耦范围中选定一个特征作为可控特征,为所述可控特征赋予特定值,并与所述特征解耦范围中剩余特征的每组样本数据进行组合,将组合后的样本数据以及重新训练完成的机器学习模型输入所述可解释性机器分析模型进行分析,得到在所述可控特征特定取值下所述特征解耦范围中每一个特征的第三边际贡献值;
41、结合所述可控特征的特定值,对所述第三边际贡献值进行合理性分析,得到第三种可解释性分析结果。
42、第二方面,本技术还提供了一种解析特征多元影响的分析系统,所述系统包括:数据采集单元、第一模型训练单元、特征解耦范围确定单元、特征影响排除单元、第二模型训练单元、影响分析单元;
43、所述数据采集单元,用于获取影响待分析事件结果的第一特征集,采集所述第一特征集对应的第一样本数据集和待分析事件结果,并对所述第一样本数据集进行数据预处理;
44、所述第一模型训练单元,用于选择机器学习模型,采用预处理完成的第一样本数据集和对应的待分析事件结果对所选择的机器学习模型进行训练;
45、所述特征解耦范围确定单元,用于从所述第一特征集中选取特征解耦范围,并在所述第一特征集中去除所述特征解耦范围,获得待排除特征集;
46、所述特征影响排除单元,用于采用训练完成的机器学习模型,对所述第一样本数据集进行排除所述待排除特征集中特征影响的机器学习,得到所述特征解耦范围的每组样本数据所对应的预测结果,所述预测结果已排除所述待排除特征集中特征对所述待分析事件结果的影响;
47、所述第二模型训练单元,用于采用所述特征解耦范围的每组样本数据,以及所述对应的预测结果对所选择的机器学习模型进行重新训练;
48、所述影响分析单元,用于对所述特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型进行可解释性分析,若可解释性分析结果为不合理,则重新选择、训练机器学习模型并进行可解释性分析,直至所述可解释性分析结果为合理,得到所述特征解耦范围中特征对所述待分析事件结果的影响。
49、第三方面,本技术还提供一种计算机设备,所述计算机设备包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并将存储的数据传输给处理器,处理器执行存储器存储的程序指令,以执行上述所述的方法。
50、第四方面,本技术还提供一种计算机可读存储介质,述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现上述所述的方法。
51、本技术提供了一种解析特征多元影响的分析方法、系统、设备及介质,所述方法通过对待分析事件结果进行分析,获得影响待分析事件结果的特征集,并获取特征集的样本数据集,基于样本数据集对机器学习模型进行训练,以及从特征集中选取特征解耦范围,将特征集除特征解耦范围剩余的特征作为待排除特征集;采用训练完成的机器学习模型,对特征集进行排除待排除特征集中特征影响的机器学习,得到特征解耦范围每组样本数据所对应的预测结果;采用特征解耦范围的每组样本数据,以及对应的预测结果对所选择的机器学习模型进行重新训练;再对特征解耦范围的每组样本数据,以及重新训练完成的机器学习模型进行可解释性分析,若可解释性分析结果为不合理,则重新选择、训练机器学习模型并进行可解释性分析,直至可解释性分析结果为合理,得到特征解耦范围中特征对待分析事件结果的影响。本技术提供的解析特征多元影响的分析方法,将耦合相关的特征影响分离,解耦特征对可解释性分析的影响,解耦特征在不同途径下、不同特征组合下或不同特征取值下对可解释性机器学习预测分析的影响,探究、量化其作用机理、特点、过程的异同,加深对特征的认识,以实现对特征多元影响的解析,并且能进一步挖掘数据特征及其相互作用对预测目标的影响。
1.一种解析特征多元影响的分析方法,其特征在于,所述方法包括:
2.如权利要求1所述的解析特征多元影响的分析方法,其特征在于,采用训练完成的机器学习模型,对所述第一样本数据集进行排除所述待排除特征集中特征影响的机器学习,得到所述特征解耦范围的每组样本数据所对应的预测结果,包括:
3.如权利要求1所述的解析特征多元影响的分析方法,其特征在于,所述预测结果还包括第二种预测结果;
4.如权利要求3所述的解析特征多元影响的分析方法,其特征在于,将每次迭代的所述第三样本数据集输入训练完成的机器学习模型,输出第二预测结果并计算第二均值,将所述第二均值作为所述特征解耦范围的每组样本数据所对应的所述第二种预测结果,包括:
5.如权利要求1所述的解析特征多元影响的分析方法,其特征在于,所述预测结果还包括第三种预测结果;
6.如权利要求1所述的解析特征多元影响的分析方法,其特征在于,所述可解释性分析结果包括第一种可解释性分析结果和第二种可解释性分析结果;
7.如权利要求6所述的解析特征多元影响的分析方法,其特征在于,所述可解释性分析结果还包括第三种可解释性分析结果;
8.一种解析特征多元影响的分析系统,其特征在于,所述系统包括:数据采集单元、第一模型训练单元、特征解耦范围确定单元、特征影响排除单元、第二模型训练单元、影响分析单元;
9.一种计算机设备,其特征在于:所述计算机设备包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并将存储的数据传输给处理器,处理器执行存储器存储的程序指令,以执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。