第一作者:李运东
https://doi.org/10.1016/j.ese.2023.100320
• 建立了一种基于模型代理和算法优化的模型校核方法。
• 构建了一种过程模型与机器学习间独特的交互方式。• 实现了基于有限的数据提高复杂模型的精度。
随着全球城市水系统管理的数字化升级,基于过程的水环境模型正在从单一功能向集成化的多目标与多功能过渡。模型复杂程度的激增带来了在不确定性与算力方面的更高要求。然而,传统的模型校核方法难以应对复杂模型更高的优化耗时与监测样本数量要求。因此本研究开发了一种全新的机器学习并行系统MLPS,旨在利用有限的数据提高参数搜索的效率并加快模型参数优化。MLPS是基于模型代理+算法优化的思想,使用长短期记忆(LSTM)与蚁群算法(ACO)相结合的方法构建的。应用MLPS对一体化过程模型进行快速参数搜索,目的是在保留过程模型的全局性、准确性与稳定性特征的同时提高模型性能和效率。研究中以资阳市九曲河流域为对象构建了基于雨水管理模型(SWMM)和水质分析模拟程序(WASP)耦合的管网-河流一体化模型,通过分析MLPS应用前后模型在旱雨季和全年尺度下对九曲河水质的预测结果,评估MLPS对一体化过程模型的优化效果,并进一步探究模型精度提高的机制。MLPS能够促进高精度复杂模型在环境管理中的应用,其设计思路也为其他领域模型的优化提供了宝贵的见解。
图1 图文摘要
研究中使用LSTM作为代理模型对管网-河流一体化模型进行模拟。为了获取模型参数与模型结果的响应关系,研究中将一体化模型的边界条件和模型参数组合构成LSTM的输入样本,将模型模拟的河水流量和水质作为LSTM输出样本。利用一体化模型在连续的不同强度的降雨事件中的边界条件、模型参数和模型输出对LSTM代理模型进行训练。在此基础上利用ACO算法对代理模型输入中的模型参数部分进行优化校核,直至代理模型输出结果综合Nash-Sutcliffe效率系数(NSE)达到目标值,并最终将优化后的模型参数反馈回管网-河流一体化模型。图2 MLPS系统流程图
LSTM代理模型与管网-河流一体化模型对总计37天连续8次不同强度降雨事件中河流水质的模拟结果显示,代理模型与一体化过程模型结果差异性较小,河水流量、氨氮浓度与总磷浓度结果R2值分别达到0.9993、0.9999和0.9998,Pearson相关系数分别为0.9996、0.9999和0.9998,表明LSTM代理模型在小雨至暴雨情景下都能较好的模拟一体化过程模型结果,总体上并不会过度地受模型边界条件与模型参数变化的影像。代理模型输出的河水氨氮与总磷浓度的模拟结果与过程模型结果高度相似,这可能是受益于LSTM的长期与短期记忆能力特性。代理模型对河流流量的模拟结果略差于河水水质,在流量峰值与谷值模拟中出现了小幅的偏差,可能的原因是受到河流流量变化快、波动大、规律性相对较低的影响。此外,在利用ACO算法对管网-河流一体化模型的参数进行校核时,单次迭代计算模型调用耗时由1.5-2小时(直接调用过程模型)大幅降低至1分钟以内(调用代理模型),模型优化总耗时由超过7500小时下降至约80小时,大幅提高了模型的可用性。图3 LSTM代理模型的模拟结果
(a)流量结果;(b)氨氮浓度结果;(c)总磷浓度结果;(d)流量相关性;(e)氨氮浓度相关性;(e)总磷浓度相关性
研究中分别使用MLPS优化后的管网-河流一体化模型与使用当地经验参数的模型对2019年九曲河每日河流流量与水质进行模拟,通过对比模型结果评估MLPS系统的优化效果。河流流量在全年范围内保持相对稳定,仅在暴雨期间出现明显波动。旱季河水污染物浓度波动比雨季更频繁,这可能与旱雨季河流主要污染物来源不同有关。旱季河水污染物浓度受点源影响更为显著,日污水排放量和污染物浓度差异较大的点源,如生产生活污水等可能引起水质的较大波动;雨季河流在降雨的稀释作用下,更多地受到面源污染影响,与点源污染相比,雨水带来的污染物浓度较低且相对稳定。MLPS系统优化后的模型比使用经验参数的模型表现出更好的预测性能,特别是在旱季(10月至次年2月)。优化后模型预测的河水氨氮与总磷浓度分别为使用经验参数模型的42.2%与82.1%,同时预测的河流流量也减少了47.0%。优化后模型河流流量、氨氮与总磷浓度结果的PBIAS分别达到4.1%、8.1%和9.5%,表明模型在河流流量和水质预测方面具有优异的性能。相对的,使用经验参数模型对雨季河流流量与河水水质模拟较好而在旱季出现了较大的偏差,体现出优化后模型对不同场景更强的适应能力。图4 使用MLPS优化与使用经验参数的管网-河流一体化模型模拟结果
(a)流量结果;(b)氨氮浓度结果;(c)总磷浓度结果通过泰勒图可以看出MLPS优化后的模型在流量和水质模拟中表现出较高的相关性与较低的RMSE值。与监测数据相比,优化后模型的标准差为0.02,相关系数超过0.99,RMSE为0.1。MLPS优化后的模型对旱季河流流量模拟标准差达到0.02,RMSE达到0.10,相对的,对雨季河流流量模拟的RMSE值更小(<0.10),这可能是由于雨季土壤下渗作用相对稳定,对河水流量模拟影响较小导致。通过提琴图可以看出MLPS优化后的模型模拟结果与监测数据的数据分布拟合度较高,离群值以及四分位数范围同样与监测值高度重合,表明MLPS优化后的模型在旱季与雨季均具有优异的预测性能。流域极端降雨时间频次较低,雨季小于10次,旱季则低于3次。雨季河水污染物浓度普遍低于旱季,但氨氮峰值浓度更高,总磷峰值浓度更低。雨季河水污染物浓度波动更大,可能是受雨季降雨强度较大的差异性影响。旱季河水高污染物浓度可能与河水水位较低、河流自净能力下降有关。图5 MLPS优化后模型旱雨季预测效果分析
(a)标准差、RMSE及相关系数分析;(b)河水流量结果分布;(c)氨氮浓度结果分布;(d)总磷浓度结果分布此外,研究中还对MLPS优化前后模型参数的变化进行了对比分析,以探究模型优化的原理及优化后模型在旱雨季不同效能表现的原因。结果表明,优化前后参数变化可能对河水中微生物对污染物的分解作用与少量植物对污染物的吸收作用的模拟产生了差异,进而引发模型在旱季与雨季对河水污染物浓度预测的不同效能。旱季河流流量流速较低,河水污染物浓度降低主要受生物降解过程影响。MLPS优化可以弥补经验参数对该部分估计的不足,提高模型精度。雨季由于污染物在河段停留时间较短,模型精度提高更多依赖于对模型边界条件的准确统计,参数优化效果降低。李运东,哈尔滨工业大学环境学院博士研究生,研究方向为基于模型与大数据的城市水环境智慧治理与管理研究,授权国家发明专利5项,博士期间作为技术骨干参与多个科研项目的研发。
田禹,博士,哈尔滨工业大学环境学院教授/博导,国家级高层次人才,国家重点实验室副主任,物联网智能技术工信部重点实验室副主任;中国环境科学学会生态环境大数据专业委员会常务委员。近年来主要从事人工智能+大数据城市水系统智慧管控、固体废弃物减量化与资源化等方面研究工作,主持了国家重点研发计划项目、国家863重点项目课题、863目标导向项目、国家水体污染控制与治理科技重大专项、政府间国际科技创新合作重点专项、国家自然科学基金等。近5年在Water Research、Chemical Engineering Journal、Environmental International等国际期刊上发表SCI论文40余篇,授权国家发明专利30余件、软件著作权8项。主持的项目获评2021年国家工业和信息化部办公厅大数据产业发展试点示范项目。通讯邮箱:hit_tianyu@163.com