图文摘要
成果简介
近日,大连理工大学陈景文教授课题组在Environmental Science & Technology上发表了题为“Transfer Learning with a Graph Attention Network and Weighted Loss Function for Screening of Persistent, Bioaccumulative, Mobile, and Toxic Chemicals”的研究论文(DOI: 10.1021/acs.est.4c11085)。持久性、生物蓄积性、迁移性有毒(PBMT)化学品在环境中不易降解,在水环境中具有迁移性,危害人类和生态系统健康。然而,由于缺乏化学品相关属性的实测数据,以往难以实现PBMT化学品的高通量识别。本研究汇集了PBMT化学品数据集,构建了基于迁移学习的图注意力网络(TL-GAT)模型,用于集成筛查PBMT化学品。还针对不平衡数据集的建模问题,在TL-GAT模型中引入了加权损失(LW)函数。结果表明,TL-GAT模型性能优于以往模型,并且在应用域覆盖范围和可解释性上具有优势。所创建的TL-GAT模型框架与LW函数广泛适用于各类任务,特别是涉及到小型和不平衡数据集的建模任务。
引言
高效筛查有害化学品,是新污染物治理的基础性工作。持久性、生物蓄积性有毒(PBT)化学品,容易在环境中积累、在生物体蓄积并导致毒害性效应。持久性、迁移性有毒(PMT)化学品因其在水环境中较强的迁移性而备受关注。PMT化学品进入城市水系统后难以去除,威胁公共健康。已有机器学习模型被成功用于识别PBT和PMT化学品(ES&T, 2022, 56, 6774; ES&T, 2024, 58, 6149)。与PBT和PMT化学品相比,持久性、生物蓄积性、迁移性有毒(PBMT)化学品的数量相对较少,但既会对饮用水造成长期污染,也会在生物体中积累并沿食物链放大。由于化学品种类众多,而且大多缺乏P, B, M, T相关属性的实测数据,PBMT化学品的识别面临巨大挑战。迁移学习(TL)可以通过利用源域大数据集中的知识,提升模型在目标域小数据集上的性能。因此,有必要基于TL克服小数据集建模的挑战,创建PBMT化学品的高通量筛查方法。
图文导读
通过广泛汇集与化学品水相迁移性相关的属性数据,以及持久性、生物蓄积性有毒(PBT)化学品清单,该研究构建了PBMT化学品数据集。为应对PBMT化学品数据量有限的问题,提出了基于迁移学习的图注意力网络(TL-GAT)框架,用于构建PBMT化学品的高通量筛查模型,其源域为PBT化学品数据集,目标域为PBMT化学品数据集。如图1a和1b所示,TL显著提高了PBMT化学品筛查模型的性能与稳健性。而且,相比于未经TL的GAT模型,TL-GAT模型的性能指标值收敛更快(图1c)。
图1. TL-GAT模型与GAT模型性能:(a) 模型受试者工作特征曲线下面积(AROC)、精度-召回率曲线下面积(APR)、精度(RP)、召回率(RTP)和平衡准确率(RBA)值;(b) 模型混淆矩阵;(c) 模型学习曲线。
为解决PBMT化学品数据集中正负样本数量不平衡的问题,提出了一种加权损失(LW)函数。如图2所示,与调整阈值、过采样和欠采样方法相比,引入了LW函数的TL-GAT模型对少数类阳性样本的筛查能力显著提高。
图2. 基于各种不平衡数据集建模技术的TL-GAT模型性能。
TL-GAT模型的注意力权重参数(PAW)提高了模型可解释性。如图3a所示,仅在源域,即PBT化学品数据集上训练的GAT模型,对水相迁移性相关的分子结构关注较弱。由图3b可看出,经过在PBMT化学品数据集上的微调,TL-GAT模型更加关注与迁移性相关的分子结构。图3c表明,可以根据TL-GAT模型对分子结构中各个原子的PAW值,来量化每个官能团对建模终点的贡献,从而对影响最大的官能团进行定向修饰。
图3. 基于注意力权重参数(PAW)的模型解释与分子结构定向修饰。
最后,采用基于构效关系形貌(SAL)分析的应用域(AD)表征技术ADSAL,表征了TL-GAT模型的AD。结果表明,通过引入源域数据集中的知识,TL可以在保证模型性能相当的情况下,扩大PBMT化学品筛查模型的AD覆盖范围。
小结
该研究汇集了PBMT化学品数据集,基于TL-GAT算法和LW函数构建了PBMT化学品的集成筛查模型。TL-GAT模型性能优于以往,并在AD覆盖范围和可解释性上具有优势。所创建的TL-GAT框架与LW函数适用于各类环境化学领域的建模任务,在小型和不平衡数据集建模方面具有广泛的应用前景。
作者介绍
陈景文:特聘教授,获国家杰出青年科学基金;2016年入选国家万人计划科技创新领军人才。面向化学品风险防控和新污染物治理的重大需求,在环境计算毒理学、新污染物治理技术等方向开展研究工作。至2021年10月,发表论文350余篇,出版著作3部。研究成果获国家自然科学二等奖(第二完成人)、教育部自然科学一等奖(第一完成人)。获首届“高校优秀青年教师奖”、辽宁“十大科技英才奖”,2022年获“霍英东教育基金会年高等院校教育教学奖(二等)”。
课题组主页:http://faculty.dlut.edu.cn/jwchen/zh_CN/index.htm。
王浩博:大连理工大学环境学院博士研究生,研究方向为人工智能赋能的环境计算毒理学,以第一作者在环境领域国际权威期刊Environmental Science & Technology发表论文3篇,在中文核心期刊《科学通报》和《环境化学》上发表论文2篇,参与撰写英文专著“QSAR in Safety Evaluation and Risk Assessment”。
备注:
Reprinted with permission from Transfer Learning with a Graph Attention Network and Weighted Loss Function for Screening of Persistent, Bioaccumulative, Mobile, and Toxic Chemicals. Copyright 2024, American Chemical Society
参考文献:
Wang H. B., Liu W. J., Chen J. W., et al. Transfer Learning with a Graph Attention Network and Weighted Loss Function for Screening of Persistent, Bioaccumulative, Mobile, and Toxic Chemicals. Environ. Sci. Technol., 2024, DOI: 10.1021/acs.est.4c11085
文章链接:
https://pubs.acs.org/doi/10.1021/acs.est.4c11085