根浓度因子预测模型的建立方法、训练装置以及
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本公开涉及环境健康风险评价,具体涉及一种根浓度因子预测模型的建立方法、训练装置以及根浓度因子预测方法。、有机化学品的广泛使用使得有害化学物质被释放到环境中,并通过大气沉降、污染水灌溉等方式汇集至土壤。这些在土壤,尤其是农业土壤中长期存在的有机污染物可能会经植物吸收而迁移至食物链中,进而对农... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本公开涉及环境健康风险评价,具体涉及一种根浓度因子预测模型的建立方法、训练装置以及根浓度因子预测方法。背景技术:1、有机化学品的广泛使用使得有害化学物质被释放到环境中,并通过大气沉降、污染水灌溉等方式汇集至土壤。这些在土壤,尤其是农业土壤中长期存在的有机污染物可能会经植物吸收而迁移至食物链中,进而对农业生态及农产品食用构成潜在危害。其中,植物根系从受污染土壤中吸收有机污染物的过程是促进其在植物中转运和积累的关键。根浓度因子被定义为污染物在土壤固体、土壤孔隙水和植物根系中平衡分布的状态,根浓度因子为根系中污染物浓度与土壤中污染物浓度在稳态或平衡状态下的比值。通常将植物的根浓度因子作为土壤或生态环境健康的评估指标之一,通过对根浓度因子进行预测,可以实现对土壤或整个生态环境中的有机污染物进行控制或预防。2、发明人发现相关技术中至少存在如下问题,根系植物吸收土壤中污染物的过程中,构成了由植物-土壤-污染物组成的复杂系统,在对根浓度进行预测时,需要考虑植物特性、土壤特性、污染物特性及其彼此之间的相互作用。进一步地,传统的根浓度因子预测方法中,经验模型的开发依赖于污染物有限的物理化学性质,而机制模型是基于根系植物摄取污染物过程的假设条件的开发,以上方法对植物-土壤-污染物之间的相互作用过度简化,且过度依赖人为经验,使得预测模型的泛化性较差,适用范围小。再或者,根据传统机器学习的方法对根浓度因子进行预测的方法中,依赖于对污染物和植物之间的相互作用的描述程度,只有输入更多、更详细的特征数据,才能得到较为准确的预测结果,针对现有根浓度因子数据量较少的现状,大量数据的需求限制了预测模型的泛化性。技术实现思路1、鉴于上述问题,本公开提供了一种根浓度因子预测模型的建立方法、训练装置以及根浓度因子预测方法。2、根据本公开的第一个方面,提供了一种根浓度因子预测模型的建立方法,包括:3、获取多种化合物的第一数据集和第一标签,其中,第一数据集为用于描述各化合物的分子结构的smiles编码,第一标签用于表征各化合物在色谱中的保留时间数据;4、利用第一数据集和第一标签,对第一训练模型的第一模型参数进行优化,得到包含初级模型参数的初级模型;5、获取多种污染物的第二数据集和第二标签,其中,第二数据集为用于描述各污染物的分子结构的smiles编码,第二标签用于表征多种植物根系在不同土壤环境中吸收的各污染物的根浓度因子数据;6、利用第二数据集和第二标签,对初级模型的第二模型参数进行优化,得到根浓度因子预测模型。7、根据本公开的实施例,第一训练模型、初级模型和根浓度因子预测模型包括:初始化层、键特征嵌入层、原子特征嵌入层、分子特征嵌入层和预测层;8、初级模型参数包括:初级初始化层模型参数、初级键特征嵌入层模型参数、初级原子特征嵌入层模型参数、初级分子特征嵌入层模型参数和初级预测层模型参数;9、根浓度因子预测模型参数包括:目标初始化层模型参数、初级键特征嵌入层模型参数、初级原子特征嵌入层模型参数、目标分子特征嵌入层模型参数和目标预测层模型参数。10、根据本公开的实施例,利用第二数据集和第二标签,对初级模型的第二模型参数进行优化,得到根浓度因子预测模型,包括:11、固定初级模型中初级键特征嵌入层模型参数和初级原子特征嵌入层模型参数;12、利用第二数据集和第二标签,对初级模型的第二模型参数进行优化,得到根浓度因子预测模型,其中,第二模型参数包括:初级初始化层模型参数、初级分子特征嵌入层模型参数和初级预测层模型参数。13、根据本公开的实施例,利用第二数据集和第二标签,对初级模型的第二模型参数进行优化,得到根浓度因子预测模型,包括:14、将多种污染物的smiles编码输入至初级模型的初级初始化层,生成多种污染物各自对应的分子图、原子间关系矩阵和由分子描述符组成的特征向量;15、将分子图、原子间关系矩阵和由分子描述符组成的特征向量依次输入至初级模型的初级键特征嵌入层、初级原子特征嵌入层、初级分子特征嵌入层,得到污染物的分子特征向量;16、将污染物的分子特征向量输入至初级模型的初级预测层,生成多种污染物各自对应的第二预测数据,其中,第二预测数据用于表征不同根系在不同土壤环境中吸收各种污染物的根浓度因子预测数据;17、根据第二预测数据和第二标签,对初级模型的第二模型参数进行优化,得到根浓度因子预测模型。18、根据本公开的实施例,生成多种污染物各自对应的分子图、原子间关系矩阵和由分子描述符组成的特征向量,包括:19、根据污染物的smiles编码,分别为无向图添加用于表征原子特征信息的节点特征和用于表征键特征信息的边特征,得到污染物的分子图;20、根据污染物的smiles编码,分别建立表征原子间邻接特征的邻接矩阵、表征原子间距离特征的距离矩阵和表征原子间库仑特征的库仑矩阵,得到污染物的原子间关系矩阵;21、根据污染物的smiles编码,按照分子描述符所表征的分子性质生成分子特征向量,得到污染物的分子描述符特征向量。22、根据本公开的实施例,原子特征信息包括原子类型、原子价度、原子形式电荷、原子手性、原子连接氢原子数目、原子杂化方式、原子芳香性、原子质量;23、键特征信息包括键的类型、键是否共轭、键是否在环上、键的立体构型信息;24、原子间关系特征信息包括对应原子对之间是否成键、对应原子对之间的拓扑距离、对应原子对之间的静电相互作用信息。25、根据本公开的实施例,污染物的分子描述符特征向量包含有植物根脂质含量特征向量和土壤有机质含量特征向量。26、根据本公开的实施例,将分子图、原子间关系矩阵和由分子描述符组成的特征向量依次输入至初级模型的初级键特征嵌入层、初级原子特征嵌入层、初级分子特征嵌入层,得到污染物的分子特征向量,包括:27、根据分子图和原子间关系矩阵,生成初始化键特征张量;28、将初始化键特征张量输入至键特征嵌入层,提取污染物的原子级键特征张量;29、将原子级键特征张量输入至初级模型的初级原子特征嵌入层,将原子级键特征张量与污染物的原子特征连接,得到污染物的原子特征张量;30、将原子特征张量输入至初级模型的初级分子特征嵌入层,将原子特征张量与分子描述符特征向量连接,得到污染物的分子特征向量。31、本公开的第二方面提供了一种根浓度因子预测模型的训练装置,包括:32、第一获取模块,用于获取多种化合物的第一数据集和第一标签,其中,第一数据集为用于描述各化合物的分子结构的smiles编码,第一标签用于表征各化合物在色谱中的保留时间数据;33、第一优化模块,用于利用第一数据集和第一标签,对第一训练模型的第一模型参数进行优化,得到包含初级模型参数的初级模型;34、第二获取模块,用于获取多种污染物的第二数据集和第二标签,其中,第二数据集为用于描述各污染物的分子结构的smiles编码,第二标签用于表征多种植物根系在不同土壤环境中吸收的各污染物的根浓度因子数据;35、第二优化模块,用于利用第二数据集和第二标签,对初级模型的第二模型参数进行优化,得到根浓度因子预测模型。36、本公开的第三方面提供了一种根浓度因子预测方法,包括:37、获取待预测污染物的smiles编码;38、将待预测污染物的smiles编码输入至根浓度因子预测模型,得到待预测污染物的根浓度因子数据。39、根据本公开的实施例,为了解决现有训练样本的数据缺乏问题,本公开用现有的大数据样本(化合物在色谱中的保留时间数据)预先训练初级模型(消息传递神经网络模型),以得到初级模型参数,进一步地,由于污染物从土壤(水环境)向植物根系扩散的过程,与化合物在色谱柱中分离的过程具有相似的亲脂性,因此,利用化合物在色谱中的保留时间模拟污染物在植物根系的扩散时间。利用训练得到的部分初级模型参数(第二模型参数),采用小数据样本(不同植物根系在不同土壤环境下吸收某一种污染物的根浓度因子)对初级模型继续训练,以得到根浓度因子预测模型。根据上述方式,通过基于消息传递神经网络模型和迁移学习,利用数据集之间的关联性(共同具有亲脂性),实现了大数据样本向小数据样本的参数迁移,打破了以往深度学习模型对训练数据量的严格要求。由此,可进一步提升根浓度因子预测结果的准确性,避免训练样本(不同植物根系在不同土壤环境下吸收某一种污染物的根浓度因子)不足造成的模型训练精度低、预测结果不准确的问题。40、另一方面,使用化合物分子的smiles编码作为模型的输入,可以直接训练得到化合物的分子表征,无需使用传统机器学习中使用量子化学计算方法计算的分子量化参数作为分子描述符,节省了分子描述符计算时间与计算资源,降低了应用时对计算化学基础的要求,从整体上并提高计算机预测性能,扩大预测范围。