【科技快讯】我院陈景文教授团队ES&T：基于迁移学习的图注意力网络，集成筛查持久性、生物蓄积性、迁移性有毒化学品-大连理工大学环境学院

【科技快讯】我院陈景文教授团队ES&T：基于迁移学习的图注意力网络，集成筛查持久性、生物蓄积性、迁移性有毒化学品

作者: 信息来源: 发布时间: 2024-12-24

图文摘要

成果简介

近日，大连理工大学陈景文教授课题组在Environmental Science & Technology上发表了题为“Transfer Learning with a Graph Attention Network and Weighted Loss Function for Screening of Persistent, Bioaccumulative, Mobile, and Toxic Chemicals”的研究论文(DOI: 10.1021/acs.est.4c11085)。持久性、生物蓄积性、迁移性有毒(PBMT)化学品在环境中不易降解，在水环境中具有迁移性，危害人类和生态系统健康。然而，由于缺乏化学品相关属性的实测数据，以往难以实现PBMT化学品的高通量识别。本研究汇集了PBMT化学品数据集，构建了基于迁移学习的图注意力网络(TL-GAT)模型，用于集成筛查PBMT化学品。还针对不平衡数据集的建模问题，在TL-GAT模型中引入了加权损失(L_W)函数。结果表明，TL-GAT模型性能优于以往模型，并且在应用域覆盖范围和可解释性上具有优势。所创建的TL-GAT模型框架与L_W函数广泛适用于各类任务，特别是涉及到小型和不平衡数据集的建模任务。

引言

高效筛查有害化学品，是新污染物治理的基础性工作。持久性、生物蓄积性有毒(PBT)化学品，容易在环境中积累、在生物体蓄积并导致毒害性效应。持久性、迁移性有毒(PMT)化学品因其在水环境中较强的迁移性而备受关注。PMT化学品进入城市水系统后难以去除，威胁公共健康。已有机器学习模型被成功用于识别PBT和PMT化学品(ES&T, 2022, 56, 6774; ES&T, 2024, 58, 6149)。与PBT和PMT化学品相比，持久性、生物蓄积性、迁移性有毒(PBMT)化学品的数量相对较少，但既会对饮用水造成长期污染，也会在生物体中积累并沿食物链放大。由于化学品种类众多，而且大多缺乏P, B, M, T相关属性的实测数据，PBMT化学品的识别面临巨大挑战。迁移学习(TL)可以通过利用源域大数据集中的知识，提升模型在目标域小数据集上的性能。因此，有必要基于TL克服小数据集建模的挑战，创建PBMT化学品的高通量筛查方法。

图文导读

通过广泛汇集与化学品水相迁移性相关的属性数据，以及持久性、生物蓄积性有毒(PBT)化学品清单，该研究构建了PBMT化学品数据集。为应对PBMT化学品数据量有限的问题，提出了基于迁移学习的图注意力网络(TL-GAT)框架，用于构建PBMT化学品的高通量筛查模型，其源域为PBT化学品数据集，目标域为PBMT化学品数据集。如图1a和1b所示，TL显著提高了PBMT化学品筛查模型的性能与稳健性。而且，相比于未经TL的GAT模型，TL-GAT模型的性能指标值收敛更快(图1c)。

图1. TL-GAT模型与GAT模型性能：(a) 模型受试者工作特征曲线下面积(A_ROC)、精度-召回率曲线下面积(A_PR)、精度(R_P)、召回率(R_TP)和平衡准确率(R_BA)值；(b) 模型混淆矩阵；(c) 模型学习曲线。

为解决PBMT化学品数据集中正负样本数量不平衡的问题，提出了一种加权损失(L_W)函数。如图2所示，与调整阈值、过采样和欠采样方法相比，引入了L_W函数的TL-GAT模型对少数类阳性样本的筛查能力显著提高。

图2. 基于各种不平衡数据集建模技术的TL-GAT模型性能。

TL-GAT模型的注意力权重参数(P_AW)提高了模型可解释性。如图3a所示，仅在源域，即PBT化学品数据集上训练的GAT模型，对水相迁移性相关的分子结构关注较弱。由图3b可看出，经过在PBMT化学品数据集上的微调，TL-GAT模型更加关注与迁移性相关的分子结构。图3c表明，可以根据TL-GAT模型对分子结构中各个原子的P_AW值，来量化每个官能团对建模终点的贡献，从而对影响最大的官能团进行定向修饰。

图3. 基于注意力权重参数(P_AW)的模型解释与分子结构定向修饰。

最后，采用基于构效关系形貌(SAL)分析的应用域(AD)表征技术AD_SAL，表征了TL-GAT模型的AD。结果表明，通过引入源域数据集中的知识，TL可以在保证模型性能相当的情况下，扩大PBMT化学品筛查模型的AD覆盖范围。

小结

该研究汇集了PBMT化学品数据集，基于TL-GAT算法和L_W函数构建了PBMT化学品的集成筛查模型。TL-GAT模型性能优于以往，并在AD覆盖范围和可解释性上具有优势。所创建的TL-GAT框架与L_W函数适用于各类环境化学领域的建模任务，在小型和不平衡数据集建模方面具有广泛的应用前景。

作者介绍

陈景文：特聘教授，获国家杰出青年科学基金；2016年入选国家万人计划科技创新领军人才。面向化学品风险防控和新污染物治理的重大需求，在环境计算毒理学、新污染物治理技术等方向开展研究工作。至2021年10月，发表论文350余篇，出版著作3部。研究成果获国家自然科学二等奖(第二完成人)、教育部自然科学一等奖(第一完成人)。获首届“高校优秀青年教师奖”、辽宁“十大科技英才奖”，2022年获“霍英东教育基金会年高等院校教育教学奖(二等)”。

课题组主页：http://faculty.dlut.edu.cn/jwchen/zh_CN/index.htm。

王浩博：大连理工大学环境学院博士研究生，研究方向为人工智能赋能的环境计算毒理学，以第一作者在环境领域国际权威期刊Environmental Science & Technology发表论文3篇，在中文核心期刊《科学通报》和《环境化学》上发表论文2篇，参与撰写英文专著“QSAR in Safety Evaluation and Risk Assessment”。

备注：

Reprinted with permission from Transfer Learning with a Graph Attention Network and Weighted Loss Function for Screening of Persistent, Bioaccumulative, Mobile, and Toxic Chemicals. Copyright 2024, American Chemical Society

参考文献：

Wang H. B., Liu W. J., Chen J. W., et al. Transfer Learning with a Graph Attention Network and Weighted Loss Function for Screening of Persistent, Bioaccumulative, Mobile, and Toxic Chemicals. Environ. Sci. Technol., 2024, DOI: 10.1021/acs.est.4c11085

文章链接:

https://pubs.acs.org/doi/10.1021/acs.est.4c11085