科研快讯

【科技快讯】我院傅志强副教授、陈景文教授ES&T:揭示塑料化学品潜在生物活性——基于多模态McGPCR的GPCR亲和力预测模型

2025-12-08

现代社会大量使用的合成化学品为生活带来便利,却也悄然威胁着人体与生态健康。塑料尤为典型——为赋予其耐用、柔韧、阻燃等性能,制造过程中会加入种类繁多的助剂与副产物,这些塑料化学品可能干扰人体内分泌、神经系统甚至心血管功能。许多健康风险往往源于化学物质与体内受体的结合,其中位于细胞膜上的G蛋白偶联受体(GPCR)尤为关键。越来越多研究发现,外源化学物可与多类GPCR发生异常结合,从影响多巴胺信号到激活雌激素相关通路,甚至诱发神经及代谢疾病。然而,目前真正被测试过的塑料化学品数量极少,而可能存在于塑料中的化学物已超过一万六千种,远超实验能力。机器学习有望预测这些化学品的受体亲和力,但传统模型只看化学结构、忽略受体特征,难以准确覆盖众多GPCR。因此,如何构建能同时学习化学物受体双模态信息并具备可靠适用域的模型,已成为评估塑料化学品健康风险的关键挑战。

本研究构建了一个人源GPCR亲和力数据集,涵盖59,599个化合物与109GPCR之间共96,776条测定记录。在此基础上建立了多模态学习模型 McGPCR,通过融合分子图特征与受体结合位点特征,实现对化学物质与GPCR结合亲和力的预测。与仅依赖化学结构特征的模型相比,McGPCR展现出显著更高的预测性能。同时,本研究提出基于特征活性景观分析的适用域(AD)表征方法,以确保模型预测结果的可靠性。结合ADMcGPCR被应用于9000余种塑料相关化学品的亲和力预测。通过整合亲和力、环境持久性、生物富集性以及生产量等因素,最终筛选出30种具有潜在高环境风险的塑料化学品。综上,结合AD表征的McGPCR模型为识别威胁人体健康的有毒化学物质提供了一种强有力的工具。

1 MML建模工作流概述

1整体展示了多模态学习模型的核心结构与信息流动路径(1A)描述了模型如何分别对化学分子图与受体结合位点序列进行编码:分子特征由图卷积网络提取,受体特征由卷积神经网络捕获,随后拼接为统一的多模态特征并输入至多层感知机进行亲和力预测。(1B)进一步展示化学模态的处理流程,包含多尺度图卷积模块、特征整合的过渡层以及将完整分子图转化为向量表示的读出层。(1C)则说明受体序列的编码策略,通过三条具有不同感受野的卷积分支与线性层提取多尺度氨基酸模式,最终生成受体特征向量。整体结构清晰衔接,实现化学信息与生物受体信息的协同学习。

2 GPCR数据集规模与化学空间多样性对比

2展示了本研究构建的GPCR数据集在规模与多样性上的显著优势(2A)显示该数据集的数据量提升2.4倍、受体数量增加3.3倍,为多模态模型提供更丰富的化学物受体样本。(2B)通过网络相似图可见,GPCR数据集包含333个分子群落,远高于Tox21137个,且结构类型更为多样,涵盖PFAS、双酚类和多氯联苯等关键污染物,因而成为后续模型训练的重要基准。

3 多模态模型预测性能与特征贡献评估

3系统评估了多模态模型的预测性能与稳健性(3A)显示所有模型均超过0.7McGPCR以最高、最低误差与最高一致性指标表现最优。(3B) 进一步比较不同蛋白特征可见,基于结合位点序列的McGPCR明显优于多种主流CPI模型,体现其特征选择优势。(3C)的消融实验表明化学与受体特征均对模型至关重要,缺失任一模态都会显著降低精度。(3D)则展示McGPCR在多数单一GPCR上均优于GCNGAT,尤其在小数据量受体中仍保持稳健,体现了多模态学习缓解数据稀缺性的能力。

4 适用域对模型可靠性的影响与活动崖识别

4展示了基于特征活性景观的适用域ADFAL如何提升模型预测可靠性(4A)随着适用域条件收紧(ρ提高、IA减小),进入AD的样本数量逐步减少,而McGPCR持续上升,说明更严格的AD能显著提升预测精度。(4B)对误差较大的CRP分析发现,它们位于特征空间的活动崖上,难以被传统ADSAL识别,但能被ADFAL成功剔除。整体来看,ADFALAD从单一化学空间扩展至多模态特征空间,使MML模型在监管要求下具备更高的可靠性。

5 塑料化学品与GPCR的相互作用

5揭示了塑料化学品对多类GPCR的潜在高亲和力风险(5B)显示5 个平均亲和力最高的受体,其中4个分布于大脑,与中枢神经系统密切相关。模型预测表明,多种塑料化学品对5HT4RDRD3HRH3P2Y12的结合强度,甚至超过其内源性配体或临床药物,提示其可能参与神经毒性与心血管毒性过程。结合文献验证,如BPABPS的实验结果均与模型预测一致。进一步筛选显示,具有高亲和力、持久性与生物累积性的化学品中,有30种属高产量物质,涵盖双酚类、阻燃剂、PFAS等,可能构成重要环境健康风险。

综上所述,了解特定化学物会干扰哪些受体,是保障人体健康的关键。本研究首次开展大规模建模预测化学物对GPCR的亲和力,构建了重要的基准数据集,并开发了具多模态学习功能的McGPCR模型,在数据稀缺的受体上仍能保持出色预测性能。未来可进一步结合实验与计算获得的受体化学物复合物结构,以捕捉更直观的空间特征并提升准确度。尽管环境领域拥有大量多模态数据,但相关MML模型及其适用域方法仍十分有限。本研究提出的ADFAL为刻画高维特征活性关系提供了通用思路,有望推广至其他多模态模型。本研究还识别出多类易受塑料化学品干扰的GPCR。尽管预测显示部分化学物与这些受体具有较高亲和力,但其是否导致下游毒性仍需机制研究。然而,本研究已提供一份应优先监管的高风险化学品清单,并为设计更安全的绿色替代物提供方向,有助于促进塑料产业的可持续发展。


原文链接:https://pubs.acs.org/doi/10.1021/acs.est.5c02770