本发明涉及河道污染物排放阈值诊断领域,尤其涉及一种基于反事实解释的河道污染物排放阈值诊断方法。
背景技术:
1、随着城市化与工业化的快速进程,人类活动强度日益加大,大量生产、生活的污废水排放带来了日益突出的城市水生态环境问题,成为制约地区经济增长的“水瓶颈”。报告中明确提出,“加强城市基础设施建设,打造宜居、韧性、智慧城市”。污染物排放阈值是指在满足水质目标的条件下,支流(排污厂)水体汇入干流水体的污染物最大值。通过对构成重大风险的控制断面设定水质限值或目标,确定河道污染物排放阈值,有利于对沿线各支流、排污厂污染物排放浓度、排放规模进行统筹控制和管理,是确保城市水质安全的最常见、最直接、最有效的手段。
2、近年,机器学习于各个领域均中展现出卓越的模型性能。但大多数机器学习方法聚焦于各类时序预测、分类任务,适用于水质预测、预警问题,并不直接解决阈值难题。并且,机器学习多为黑箱模型,其不透明的决策过程难以理解或验证,在风险型决策系统中常常应用受限。传统排污阈值确定方法依赖于水质-水量耦合模型,输入水动力及水质参数,模拟不同排污口位置、入河污水量以及污染物浓度排污方案下对城市河流水质的变化趋势,定量分析各排污方案的合理性,进而确定排污阈值。
3、反事实解释把阈值求解当作基于机器学习分类器决策边界的约束优化问题看待,通过改动原始数据点的特征值,使得分类器决策结果反转,在解析分类逻辑的基础上,反馈用户改变分类器判别结果所需的最小行动,即直接回答“上游氨氮排放浓度降低到多少恰好能够满足下游控制断面的水质为ⅲ类水体”类似问题。与传统阈值诊断方法相比,反事实解释模型的优势在于无需构建水动力模型,直接依据观测数据构建分类器,基于决策边界求解最小特征变动,给出阈值结果。
技术实现思路
1、为了克服上述现有技术存在的不足,本发明提供了基于反事实解释的河道污染物排放阈值诊断方法,能够快速确定支流(排污厂)污染物排放浓度、排放量阈值,保障城市河道水质安全。本发明的目的在于提供一种基于反事实解释的河道污染物排放阈值诊断方法,从而解决现有技术中存在的前述问题。
2、为了实现上述目的,本发明采用的技术方案如下:
3、一种基于反事实解释的河道污染物排放阈值诊断方法,包括以下步骤:
4、s1、收集干流目标断面与支流汇入断面的流量、水质时序数据,并对原始数据进行数据清洗、异常值剔除和归一化处理;
5、s2、依据滑动窗口内提取所述支流汇入断面的污染物浓度、流量数据的时间序列特征值;
6、s3、依据结果窗口内目标断面的水质序列判别是否满足水质目标,水质达标标签为0,水质不达标标签为1;
7、s4、将时间序列特征样本与对应标签按照一定比例划分为训练集和验证集,输入到随机森林分类模型中进行训练,所述随机森林由多个决策树组成,判别结果取决于所有决策树的分类投票结果,票数最多的类别即为最终判别结果;
8、s5、基于训练完成的随机森林分类模型,引进反事实解释模型求解满足目标水质条件下各时间序列特征变量的最小变动,给出阈值方案。
9、优选的,步骤s2中的所述时间序列特征值,可为所述滑动窗口内序列最大值、最小值、均值、方差、峰度等序列统计值。
10、优选的,步骤s5的具体方法为:
11、s51、在随机森林分类器的基础上,引进yloss函数,寻找样本ci满足其分类结果为1-y,ci即为反事实解释样本;
12、s52、引进相似度函数,使得求解的反事实解释与原始数据x距离最小,即特征变动最小;
13、s53、引进多样性函数,使得求解的k个反事实解释样本之间距离最大;
14、s54、反事实解释模型将阈值求解问题转化为约束优化问题。
15、优选的,
16、均值的计算公式为:
17、
18、方差的计算公式为:
19、
20、峰度的计算公式为:
21、
22、其中是时间序列均值,σ是时间序列标准差。
23、优选的,
24、yloss函数的计算公式为:
25、
26、其中表示分类器输出的分类概率;当当yloss=0。
27、优选的,相似度函数计算公式为:
28、
29、其中dis_cont(c,x)是反事实样本与原始样本的连续变量之间的距离;
30、dis_cat(c,x)是反事实样本与原始样本的分类变量之间的距离;ncont是连续变量的数量,ncat代表分类变量的数量;madp是连续变量p的绝对中位差。
31、优选的,多样性函数的计算公式为:
32、diversity=det(k)
33、其中dist(ci,cj)表示两个反事实样本之间的距离度量。
34、优选的,反事实解释模型的计算公式为:
35、
36、通过超参数和平衡yloss、proximity、diversity的损失,最终得到多个反事实解释,并且解释是多样化的。
37、本发明的有益效果是:
38、(1)本发明建立了基于反事实解释模型的河道污染物排放阈值诊断方法,与其他算法相比,该算法构建模型无需构建水动力模型,这较好地解决了河道断面数据稀缺的问题。
39、(2)本发明采用了反事实解释模型对河道污染物排放阈值进行优化求解,在解释分类逻辑的基础上,直接反馈用户改变分类结果所需的最小行动,使阈值结果更为清晰直观;
40、(3)本发明提出了一种基于反事实解释模型的阈值诊断方法,无需耦合黑箱模型的内部结构,只利用黑箱模型的判别结果,适用于所有分类器,如逻辑回归、支持向量机、xgboost或深度学习分类模型,结合在线实时监测信息,充分挖掘数据中的边界决策信息,实现阈值快速诊断。
1.一种基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,
3.根据权利要求1所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,
4.根据权利要求1所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,
5.根据权利要求4所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,
6.根据权利要求5所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,
7.根据权利要求6所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,
8.根据权利要求7所述的基于反事实解释的河道污染物排放阈值诊断方法,其特征在于,