本发明涉及数据聚类分析,具体涉及一种基于机器学习的厌氧系统运行情况智能分析方法。
背景技术:
1、厌氧系统为污水处理过程中的常用系统,厌氧系统在工作过程中需要及时对产生的数据进行监测分析,通过了解厌氧系统的运行状态能够采用相应措施及时调整系统参数,提高运行效率和处理效果。
2、厌氧系统的运行数据存在多个维度,现有技术中可利用机器学习算法对历史数据进行分析,通过将多维的历史数据进行聚类,将相同分布的历史数据作为一类,针对该类数据采用机器学习方法进行数据预测,进而确定运行状态。但是由于厌氧系统的运行数据为时序数据,在同一维度的时序数据序列会存在一定的波动变化,而不同维度之间存在一定关联性以及数据变化的滞后性,因此直接利用数值进行聚类会导致聚类簇的划分不清楚,进而导致预测产生较大误差,无法准确评估厌氧系统的运行情况。
技术实现思路
1、为了解决现有技术中未考虑到厌氧系统运行数据不同维度之间时序上存在关联性以及滞后性,进而导致聚类结果较差,预测产生误差,无法准确评估厌氧系统的运行情况的技术问题,本发明的目的在于提供一种基于机器学习的厌氧系统运行情况智能分析方法,所采用的技术方案具体如下:
2、本发明提出了一种基于机器学习的厌氧系统运行情况智能分析方法,所述方法包括:
3、获取厌氧系统在时序上每个维度下运行数据的数据曲线;所述维度的类别至少包括温度、压力和流量;
4、根据所述数据曲线之间的变化趋势差异获得不同维度之间所述数据曲线的变化相关性;在每个采样时刻下,根据每个数据曲线与所有其他数据曲线之间的所述变化相关性和对应采样时刻下的变化趋势差异,获得每个所述数据曲线在每个采样时刻下的相关性权重;根据所述数据曲线中每个采样时刻下数据点对应的所述相关性权重,以及所述数据曲线与其他数据曲线对应的数据点邻域范围内的变化趋势差异,获得数据曲线与其他数据曲线之间的波动一致性;
5、在每个数据曲线中,获取每个数据点与预设邻域范围内的邻域数据点之间的第一数据差异,根据每个数据曲线的其他数据曲线中每个数据点的第一数据差异以及波动一致性获得每个数据点的每个邻域数据点的差异权重;在每个数据曲线中,根据所述差异权重和所述第一数据差异获得每个数据点的时序分布特征;
6、根据所述时序分布特征调整数据点之间的聚类距离,根据调整后的聚类距离进行聚类,获得聚类簇;分别将每个所述聚类簇中的数据作为基础进行数据预测,根据数据预测结果判断所述厌氧系统是否异常。
7、进一步地,所述变化相关性的获取方法包括:
8、获取数据曲线上每个数据点位置的二阶导数绝对值,在两个维度的数据曲线之间,计算相同位置数据点的二阶导数绝对值差异,将二阶导数绝对值差异的平均值进行负相关映射并归一化,获得所述数据曲线之间的所述变化相关性。
9、进一步地,所述相关性权重的获取方法包括:
10、在同一采样时刻下,获取每个数据曲线与每个其他数据曲线之间数据点的一阶导数差异,将两个数据曲线之间的变化相关性与对应一阶导数差异相乘,获得数据曲线与每个其他数据曲线之间在同一采样时刻下的加权变化率差异;
11、在同一采样时刻下,将每个数据曲线与所有其他数据曲线之间的所述加权变化率差异的累加和进行负相关映射并归一化,获得每个数据曲线在对应采样时刻下的相关性权重。
12、进一步地,所述波动一致性的获取方法包括:
13、任选一个数据曲线作为目标数据曲线,目标数据曲线上的数据点为目标数据点,除目标数据曲线之外的其他数据曲线上目标数据点对应时刻的预设邻域范围内的数据点为对比数据点;获取所述目标数据点与每个所述对比数据点之间的二阶导数绝对值差异,选择最小的二阶导数绝对值差异作为参考变化趋势差异;将所述参考变化趋势差异与目标数据曲线对应时刻下的所述相关性权重乘积作为加权变化趋势差异,将目标数据曲线与其他数据曲线上所有时刻的加权变化趋势差异累加后进行负相关映射并归一化,获得目标数据曲线与每个其他数据曲线之间的波动一致性;改变所述目标数据曲线,获得每个数据曲线相对于每个其他数据曲线之间的所述波动一致性。
14、进一步地,所述差异权重的获取方法包括:
15、根据差异权重计算公式获得所述差异权重,所述差异权重计算公式包括:
16、;其中为第个数据曲线上第个数据点的邻域数据点的序号,为第个数据曲线上第个数据点的第个邻域数据点的差异权重,为以自然常数为底数的指数函数,为除了第个数据曲线之外的其他数据曲线的数量,为第个数据曲线与第个其他数据曲线之间的波动一致性,为第个其他数据曲线上第个数据点的数据值,为第个其他数据曲线上第个邻域数据点的数据值。
17、进一步地,所述时序分布特征的获取方法包括:
18、在每个数据曲线中,将所述差异权重与所述第一数据差异的乘积作为对应数据点与邻域数据点之间的加权数据差异,将每个数据点的所有邻域数据点的加权数据差异的平均值进行归一化,获得每个数据点的所述时序分布特征。
19、进一步地,所述根据所述时序分布特征调整数据点之间的聚类距离包括:
20、获得两个数据点之间的时序分布特征差异,根据所述时序分布特征差异调整数据点之间的初始聚类距离,获得调整后的聚类距离;调整后的聚类距离与所述时序分布特征差异呈正相关。
21、进一步地,根据调整后的聚类距离构建连通图,利用连通图动态分裂聚类算法对连通图进行分裂操作,获得所述聚类簇。
22、进一步地,利用arima构建预测模型,获得所述数据预测结果。
23、进一步地,所述根据数据预测结果判断所述厌氧系统是否异常包括:
24、获得所述数据预测结果与对应时刻实际数据之间的差异距离,若所述差异距离大于预设判断阈值,则判断此时所述厌氧系统出行异常。
25、本发明具有如下有益效果:
26、本发明实施例首先获得不同维度运行数据的数据曲线之间的变化相关性,变化相关性能够初步评估两个维度之间数据值的变化相关特征。为了分析数据曲线上的数据点在所有维度上的数据相关性,进而获得相关性权重,相关性权重基于所有维度的数据曲线进行分析,能够对一个数据曲线上的数据点的相关特征进行准确量化。考虑到时序上数据会存在一定的波动以及滞后性,因此分析还需要分析数据点对应时刻的邻域范围内的数据点,结合相关性权重获得波动一致性。波动一致性在考虑到了数据滞后性的基础上,能够准确表征一个维度相对于另一个维度的数据曲线变化相关性,相关性越大则两类数据越属于相同分布。时序分布特征通过结合多维数据的分析,基于维度之间相对的波动一致性以及数据点邻域范围内的数据差异能够准确表征数据点在时序上的波动特征。基于时序分布特征即可获得准确的聚类距离并获得优秀的聚类结果参与数据预测,准确判断出厌氧系统是否存在异常。
1.一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述变化相关性的获取方法包括:
3.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述相关性权重的获取方法包括:
4.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述波动一致性的获取方法包括:
5.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述差异权重的获取方法包括:
6.根据权利要求5所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述时序分布特征的获取方法包括:
7.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述根据所述时序分布特征调整数据点之间的聚类距离包括:
8.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,根据调整后的聚类距离构建连通图,利用连通图动态分裂聚类算法对连通图进行分裂操作,获得所述聚类簇。
9.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,利用arima构建预测模型,获得所述数据预测结果。
10.根据权利要求1所述的一种基于机器学习的厌氧系统运行情况智能分析方法,其特征在于,所述根据数据预测结果判断所述厌氧系统是否异常包括: