本发明涉及筛分,具体涉及一种多模型融合的交叉筛透筛率预测方法。
背景技术:
1、在加工利用煤炭的过程中,由于存在原煤质量差、加工利用程度低等问题,导致煤炭资源的严重浪费和环境污染等问题,因此,为了提高煤炭的利用率,发展洁净煤技术已刻不容缓。在煤炭行业中,筛分作业在洁净煤技术中占有重要地位,是洁净煤技术过程中的一个关键环节。交叉筛是适用于细粒煤干法深度筛分且极具应用前景的新型筛分设备,但目前有关交叉筛技术的报导大多为应用研究,缺乏相应的筛分过程基础理论研究,缺少交叉筛相关的筛分数学模型的研究,限制了交叉筛的发展。筛分数学模型是筛分基础理论研究的重要内容,现有的筛分数学模型大多数都是根据筛分结果进行拟合而得到的,并不能对未知的筛分结果进行准确的预测。
2、机器学习模型可以帮助分析预测,从而辅助做出更加正确合理的决策。目前,在筛分领域中现有研究主要是使用单一模型进行工作参数到筛分性能的预测,但单一的机器学习模型存在预测精度差、泛化能力弱的问题;或者使用神经网络进行学习预测,但该方法通常对数据量要求较高,而筛分过程中通常获取数据量较为困难,不太符合深度学习建模需求。
技术实现思路
1、本发明要解决的技术问题:如何提高交叉筛透筛率的预测精度。
2、本发明的发明构思:将机器学习方法运用到筛分领域,建立了交叉筛透筛率机器学习预测模型,从scikit-learn(简称sklearn)库获取三种不同的机器学习模型,并采用stacking集成学习框架,融合拟合后的三种机器学习模型,将基学习器的预测结果整合起来作为元学习器的训练数据,通过三种评价指标对上述四种不同的机器学习回归模型进行评估,选出最佳的交叉筛透筛率的机器学习预测模型。
3、本发明的技术方案:一种多模型融合的交叉筛透筛率预测方法,包括:
4、步骤s1、获取交叉式细粒滚轴筛的筛分过程数据;
5、步骤s2、对筛分过程数据进行预处理和特征工程
6、步骤s3、对筛分过程数据进行相关性分析;
7、步骤s4、数据按设定比例随机划分为训练集和测试集;
8、步骤s5、从sklearn库中获取线性回归模型、随机森林模型、决策树模型,对三种学习器进行训练,在测试集上进行预测;
9、步骤s6、采用stacking集成学习框架,融合拟合后的三种机器学习模型,将基学习器的预测结果整合起来作为元学习器的训练数据,以提高模型的泛化能力,将每一次交叉验证基于训练数据生成的模型所预测的结果作为第二层元学习器的训练数据,将在测试集上预测的结果求平均作为第二层元学习器的测试数据。
10、步骤s7、对线性回归模型、随机森林模型、决策树模型及stacking集成学习算法的机器学习模型进行评估,选出最佳交叉筛透筛率智能预测模型。
11、作为本发明的进一步技术方案,在步骤s1中,所述获取交叉筛的筛分过程数据的方法为:利用dem模型对交叉筛的筛分过程进行模拟,在交叉筛样机上进行筛分试验,将dem数值模拟与交叉筛的试验结果进行比较,验证dem模型来模拟交叉筛的筛分过程可行性;分析筛面倾角、筛轴转速、给料率、外水含量对交叉筛透筛率的影响规律。
12、作为本发明的进一步技术方案,透筛率为筛下物中颗粒质量与总颗粒质量之比,计算公式如下:
13、
14、式中,p为易筛颗粒透筛率,%;q易筛下为筛下物中6mm以下粒级的颗粒质量,kg;q易筛总为给料中6mm以下粒级的颗粒总质量,kg。
15、作为本发明的进一步技术方案,在步骤s2中,所述预处理和特征工程的方法为:
16、删掉数据中部分缺失值,用平均值填补部分缺失值,通过计算特征本身的方差来筛选特征,选出对模型有帮助的特征,避免所有特征都导入模型去训练的情况;
17、对数据进行归一化处理,将数据缩减到[0,1]之间,最大最小归一化处理计算公式如下:
18、
19、作为本发明的进一步技术方案,在步骤s3中,所述相关性分析的方法为:由筛分过程的数据生成的斯皮尔曼(spearman)相关系数矩阵热力图来描述各个特征之间以及特征与标签之间的相关关系,斯皮尔曼(spearman)相关系数计算公式如下:
20、
21、式中,ri,si依次为特征、目标变量的数值等级;分别为他们的平均等级。
22、作为本发明的进一步技术方案,在步骤s5中,所述从sklearn库中获取线性回归模型、随机森林模型、决策树模型,对三种学习器进行训练,在测试集上进行预测的具体方法为:从sklearn库中获取线性回归模型、决策树模型、随机森林模型,将交叉筛的筛分过程数据按7:3的比例划分为训练集和测试集,训练集采用五折交叉验证的方式来训练三个基模型,并在测试集上对三个训练之后的基础模型进行测试。
23、作为本发明的进一步技术方案,在步骤s3中,线性回归模型、随机森林模型、决策树模型均可输出特征变量的影响程度,具体方法为:
24、(1)线性回归模型计算公式如下:
25、yi=w0+w1xi1+w2xi2+…+wnxin
26、通过交叉筛透筛率数据集建立起来的线性回归模型,得到了截距和每个特征的回归系数,函数如下:
27、y=0.9810+0.0863x1+0.1018x2-0.3966x3-0.1760x4
28、x1表示筛面倾角,x2表示筛轴转速,x3表示给料率,x4表示外水含量;
29、(2)建立的随机森林模型和决策树模型,从模型的重要属性feature_importances_中得出特征变量的贡献权重。
30、从线性回归模型的表达式可以得出,筛面倾角与筛轴转速的回归系数是正数,对透筛率的影响是正相关,给料率和外水含量的回归系数是负数,对透筛率的影响是负相关。此外,给料率、外水含量、筛轴转速和筛面倾角的回归系数分别为-0.3966,-0.1760,0.1018和0.0863。可见,给料率对透筛率的影响最大,外水含量和筛轴转速的影响居中,筛面倾角的影响最小。
31、作为本发明的进一步技术方案,在步骤s7中,所述对线性回归模型、随机森林模型、决策树模型及stacking集成学习算法的机器学习模型进行评估,选出最佳交叉筛透筛率智能预测模型的具体方法为:
32、通过计算模型的均方误差(mse)、平均绝对误差(mae)、拟合决定系数(r2)进行衡量;计算公式分别为:
33、
34、
35、
36、其中,yi为真实值,为预测值,为平均值。
37、拟合决定系数r2表征预测值与真实值之间的拟合程度,拟合决定系数r2取值在[0,1]之间,r2的值越接近1表明模型预测能力越好,预测的结果越准确。平均绝对误差mae表征预测值与真实值之间的绝对误差的平均值,平均绝对误差mae取值在[0,1]之间,mae的值越接近0表明模型性能越好,预测的结果越准确。均方误差mse表征预测值与真实值之间残差的样本标准差,均方误差mse取值在[0,1]之间,mse的值越接近0表明模型性能越好,预测的结果越准确。
38、本发明的有益效果是:
39、(1)本发明中的机器学习模型能够计算出特征因素对透筛率的贡献权重,找出影响透筛率的重要因素;
40、(2)本发明所建的数据集非常庞大,而且模型在数据集上表现得效果非常好,说明本发明适用于筛分领域的筛分数学模型;
41、(3)本发明利用机器学习技术,当输入影响因素组合,就可以得到预测的透筛率,预测结果可用于特征变量对透筛率影响机理的研究,以及交叉筛工作参数的优化,为实现交叉筛的智能化提供了基础;
42、(4)本发明预测精度高、时间短,成本低、工作量小.
1.一种多模型融合的交叉筛透筛率预测方法,其特征在于,包括:
2.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,在步骤s1中,所述获取交叉筛的筛分过程数据的方法为:利用dem模型对交叉筛的筛分过程进行模拟,在交叉筛样机上进行筛分试验,将dem数值模拟与交叉筛的试验结果进行比较,验证dem模型来模拟交叉筛的筛分过程可行性;分析筛面倾角、筛轴转速、给料率、外水含量对交叉筛透筛率的影响规律。
3.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,透筛率为筛下物中颗粒质量与总颗粒质量之比,计算公式如下:
4.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,在步骤s2中,所述预处理和特征工程的方法为:
5.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,在步骤s3中,所述相关性分析的方法为:由筛分过程的数据生成的斯皮尔曼(spearman)相关系数矩阵图图来描述各个特征之间以及特征与标签之间的相关关系,斯皮尔曼(spearman)相关系数计算公式如下:
6.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,在步骤s5中,所述从sklearn库中获取线性回归模型、随机森林模型、决策树模型,对三种学习器进行训练,在测试集上进行预测的具体方法为:从sklearn库中获取线性回归模型、决策树模型、随机森林模型,将交叉筛的筛分过程数据按7:3的比例划分为训练集和测试集,训练集采用五折交叉验证的方式来训练三个基模型,并在测试集上对三个训练之后的基础模型进行测试。
7.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,在步骤s5中,线性回归模型、随机森林模型、决策树模型均可输出特征变量的影响程度,具体方法为:
8.根据权利要求1所述的多模型融合的交叉筛透筛率预测方法,其特征在于,在步骤s7中,所述对线性回归模型、随机森林模型、决策树模型及stacking集成学习算法的机器学习模型进行评估,选出最佳交叉筛透筛率智能预测模型的具体方法为: