医疗专利数据库

一种基于机器学习的绝缘气体分子沸点预测方法

发布日期:2024-08-22 浏览次数:

本发明涉及电气绝缘介质,具体为一种基于机器学习的绝缘气体分子沸点预测方法及系统。背景技术:1、绝缘气体在电力系统中被广泛应用于高压开关和变压器等设备,确保设备的安全运行。由于绝缘气体必须在常温下是气态,沸点合理的绝缘气体才能够在高温高压环境下形成稳定的绝缘层,有效隔离电流并防止电弧放电。而且沸点温度应低于设备的工作温度,以确保绝缘效果。较低的沸点温度还可以减少气体泄漏和扩散的风险,提高绝缘气体的安全性。因此沸点是评估绝缘气体能否应用于工业实践的关键性指标之一。2、实验测定法是目前最原始最有效的确定分子沸点温度的方法。该方法通过对气体样品在不同压力下进行温度变化的实验测量,观察气体的相态变化,从而确定其沸点温度。但每次实验测算均需要耗费大量人力物力,已无法满足当前研发需要。获得沸点温度的方法还有经验公式法,其主要是基于统计方法和已有实验数据得出的经验公式来估算分子沸点温度。这些经验公式通常基于分子的物理和化学属性,如分子量、极性、分子间相互作用等。通过将分子属性代入相应的经验公式,可以估计出其沸点温度。但此方法缺乏理论基础,普适性较差。特别是当分子结构之间存在高度的结构变异性、立体异构体或共轭系统等时,建立准确的关系模型变得更加困难。或者,可以通过基团贡献法获得沸点,其中可以通过将所有组成的分子基团的贡献相加来预测某个分子的数据,然而,它主要依赖于人工规则和先验知识来确定分子中每个基团对属性的贡献,其主观性较强,适用范围窄。3、近年来,随着人工智能大模型的不断发展,从大数据中提取知识,由数据-知识双向驱动成为人工智能驱动科学研究的新范式,其目的是充分利用已有的知识和经验推动科学研究,并通过人工智能技术挖掘数据中的新知识。完美实现了实验、数据分析和模型计算的紧密结合,有效地缩短了科学研究的周期。作为人工智能和数据科学的核心技术,机器学习已被广泛应用于药学、化学、生物学、医学等多个学科领域。因此,基于计算机辅助,利用海量数据通过机器学习等智能算法开发一种沸点预测模型,用于估算沸点数据缺失或数据不准确的化合物以成为科学研究新趋势。4、传统的绝缘气体,例如六氟化硫气体(sulfur hexafluoride,sf6),具有低沸点(-64℃)高介电强度和优良的绝缘断弧性能,是高压电力设备的首选绝缘介质。然而,sf6具有极强的温室效应,已被明确限制排放。相继报道了一系列sf6环保替代绝缘气体,例如c-c4f8、cf3i、氟化腈类(c4f7n等)、氟化酮类(c3f6o、c4f8o等)、cf3so2f、氢氟烯烃类(c3h2f4)物质。此类物质具有较高的液化温度无法满足极寒条件下作业,但仍然可为新型绝缘环保替代气体的开发提供思路。很明显,潜在的替代品主要由六种元素组成,即c、h、o、n、f和s。这是因为由这六种元素组成的化合物在高温高压条件下往往具有很高的化学稳定性,不会轻易分解或与其他物质发生剧烈反应。此外,这种化学稳定性对于确保绝缘层的长期稳定性和可靠性至关重要。技术实现思路1、本发明所要解决的技术问题在于:解决现有的沸点实验测定费时费力,现有预测方法分子类型局限性高的问题。2、为解决上述技术问题,本发明提供如下技术方案:3、一种基于机器学习的绝缘气体分子沸点预测方法,包括:4、s100,建立基础分子实验沸点数据库;5、s200,按照需求,编写筛选元素语言,从所述基础分子实验沸点数据库中抽取所需元素的化合物作为分子筛选数据集;6、s300,借助rdkit化学信息学库中的多个函数,将所述分子筛选数据集中的分子转换为对应的多种分子描述符,获取分子特征数据集;7、s400,将所述分子特征数据集划分为训练集和测试集;调用多个不同的机器学习模型,分别应用训练集进行训练,获取每种分子描述符和多个不同的机器学习模型结合下的多个机器学习参数模型;8、s500,采用所述测试集对多个机器学习参数模型进行测试,使用评价指标对多个机器学习参数模型进行评价,将评价指标最优的机器学习参数模型,作为最佳机器学习参数模型;9、s600,应用所述最佳机器学习参数模型预测绝缘气体分子沸点值。10、优点:本发明提供了一种基于机器学习预测潜在绝缘气体沸点的方法rdkit-gbr,并使用31357个包含六种元素(c、h、o、n、f,s)绝缘气体分子的沸点基础库训练了一个机器学习模型。可以通过rdkit分子信息学库方便的计算分子描述符,将其作为输入快速的预测分子沸点。本发明可以大规模减少沸点实验测定成本,并可以适用于更多元素场景。本发明进行潜在绝缘气体沸点预测的技术,在先期筛选过程中起到降低实验试错的时间成本的作用,最终确定的绝缘气体分子的沸点还需要经过实验准确测定。11、在本发明的一实施例中,建立基础分子实验沸点数据库,包括以下步骤:12、s110,使用程序化网络访问的方式,获取化源网中收录的已合成化合物数据,将其存储在表中作为原始基础数据库,数据条目包括化合物的中英名称、cas号、分子式、分子量及实验沸点值;13、s120,基础数据清洗;删除所述原始基础数据库中显然不适用于做替代绝缘气体的物质;14、s130,数据验证及预处理;比较其他权威公开数据库,结合物理化学手册和公开文献中报道的实验值,去除错误沸点值,获取预处理数据库;15、s140,数据库标准化;将预处理数据库中所有的分子都按照cas号作为唯一索引,批量从pubchem网上查询对应的smiles式补充在预处理数据库中,对于未收录的化合物则返回空值,其smiles式则按照国际规定书写规则写出,得到基础分子实验沸点数据库。16、在本发明的一实施例中,获取所述分子筛选数据集,包括以下步骤:17、s210,设置读取基础分子实验沸点数据库的路径;18、s220,调用“pandas.apply”函数遍历基础分子实验沸点数据库中的所有元素,寻找出基础分子实验沸点数据库含有指定元素的分子式;19、s230,定义一个正则表达式用于匹配s220查找到的只包含指定元素的分子式;20、s240,选出匹配正则表达式所在的行数导入到新文件中完成元素筛选。21、在本发明的一实施例中,步骤s200中的抽取方式,包括“仅包含”、“或包含”和“不含”三种方式。22、在本发明的一实施例中,获取分子特征数据集包括以下步骤:23、s310,将所述分子筛选数据集中所有的smiles式存储在smiles.txt文件中;24、s320,使用程序语言,设置路径逐行读取smiles.txt文件中每个分子的smiles式;25、s330,根据chem函数的molfromsmiles编码规则将smiles.txt文件中的smiles式逐一转化成囊括了分子坐标等信息的3d结构;26、s340,采用“maccskeys”、“allchem”和“moleculedescriptors”函数依次进行计算,将3d结构对应转换为计算机可识别的maccs分子密钥、morgan指纹和rdkit分子描述符,并保存为相应分子特征文件,作为分子特征数据集。27、在本发明的一实施例中,获取机器学习参数模型,包括以下步骤:28、s410,设置路径读取分子特征数据集和分子筛选数据集中对应的沸点文本文件;29、s420,利用“numpy”函数的loadtxt功能,将分子特征数据集和分子筛选数据集中对应的分子特征文件和沸点文本文件存为变量descriptors和变量boiling_point,用作学习数据集;30、s430,将学习数据集按照一定比例划分训练集和测试集;其中,训练集中包括:分子特征x_train和沸点数据y_train;测试集中包括:分子特征x_test和沸点数据y_test;31、s440,调用多个不同的机器学习模型算法,分别应用训练集进行训练,获取多个机器学习参数模型算法。32、在本发明的一实施例中,s440中,机器学习参数模型算法训练过程包括:33、(a)数据输入34、将训练集中分子特征x_train和沸点数据y_train分别输入至不同的机器学习模型算法中自动学习分子和沸点之间的关系;其中,分子特征x_train分别包括应用maccs分子密钥、morgan指纹和rdkit分子描述符,三种方式得到的分子特征x_train;35、(b)参数设置36、使用网格搜索的方式,搜寻机器学习模型的最优参数;将每个机器学习模型算法中的每个参数设置一定范围,得到每个参数组合,在每次训练时尝试所有的参数组合来调试机器学习模型算法;达到最小误差,此时的参数作为最优参数;37、(c)参数化模型38、将不同分子描述符和不同机器学习模型算法结合下的最优参数,带入对应的机器学习模型算法中,获取多个机器学习参数模型。39、在本发明的一实施例中,获取最佳机器学习参数模型,包括以下步骤:40、(a)数据输入41、将测试集中分子特征x_test分别输入至多个机器学习参数模型中;42、(b)模型测试43、多个机器学习参数模型学习测试集中分子特征x_test的结构信息;44、(c)数据输出45、获取多个机器学习参数模型下对分子特征x_test预测得到的沸点数据y'_test;46、(d)模型评价47、通过均方根误差rmse、绝对平均误差mae和决定系数r2,通过评估每个机器学习参数模型下,沸点数据y_test和预测得到的沸点数据y'_test之间的关系;将评价指标最优的机器学习参数模型,作为最佳机器学习参数模型。48、在本发明的一实施例中,在步骤s230中,正则表达式为:49、pattern=r'^[0-9{}]+ .format(”.join(element_symbols));50、式中,pattern为定义一个变量,用于存储正则表达式模式;r为指示python解释器将后续字符串视为原始字符串,确保里面的反斜杠不会被特殊处理;^为匹配字符串的开头;[0-9{}]+为匹配0-9中一个或多个数字或大括号{};$为匹配字符串的结尾;format(”.join(element_symbols))为一个python字符串格式化的方法,其中,”.join(element_symbols)将element_symbols中的元素连接成一个字符串,然后插入到大括号{}中。51、本发明还提供一种基于上述所述的基于机器学习的绝缘气体分子沸点预测方法的系统,包括:52、标准库模块,用于建立基础分子实验沸点数据库;53、分子筛选模块,用于按照需求,编写筛选元素语言,从所述基础分子实验沸点数据库中抽取所需元素的化合物作为分子筛选数据集;54、分子特征模块,用于借助rdkit化学信息学库中的多个函数,将所述分子筛选数据集中的分子转换为对应的多种分子描述符,获取分子特征数据集;55、参数化算法模块,用于将所述分子特征数据集划分为训练集和测试集;调用多个不同的机器学习模型,分别应用训练集进行训练,获取每种分子描述符和多个不同的机器学习模型结合下的多个机器学习参数模型;56、最佳模型模块,用于采用所述测试集对多个机器学习参数模型进行测试,使用评价指标对多个机器学习参数模型进行评价,将评价指标最高的机器学习参数模型,作为最佳机器学习参数模型;57、预测模块,用于应用所述最佳机器学习参数模型预测绝缘气体分子沸点值。58、与现有技术相比,本发明的有益效果是:本发明的方法能够显著提高潜在绝缘气体沸点预测的精度和容量,表现出良好的稳定性和泛化能力,在处理复杂元素情况下也取得了优异的表现。通过对比多种分子描述符和机器学习算法的组合,本发明为解决现有技术在该领域存在的问题提供了有效的解决途径,有助于提升潜在绝缘气体沸点预测的准确性和可靠性,推动相关领域的研究和应用。59、本发明旨在解决现有技术在预测潜在绝缘气体沸点方面存在的缺点,包括模型精度不高、训练数据集容量有限以及在处理复杂元素情况下表现不佳等问题。因此,本发明旨在提出一种方法,通过大量分子的分子描述符和实验沸点值来训练机器学习模型,构建具有更贴近实验值和高精度的预测模型,以有效解决潜在绝缘气体沸点预测中的技术问题。60、本实例提出的方法旨在对当前新型绝缘气体的研究提供了理论支撑,提升沸点预测效率,同时节约成本。61、所述的机器学习平台由python语言编写,可以通过开关相应的函数来启用和停用指定的机器学习算法,方便地比较不同算法解决问题的性能。62、打包后的程序集成了特征计算功能,可以直接接受分子smiles作为输入,快速输出相应的分子沸点预测值,而无需先计算分子特征,再导入预测程序。