一种基于注意力机制的蛋白质全局拓扑模型质量
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于注意力机制的蛋白质全局拓扑模型质量评估方法。、蛋白质在生物系统中发挥着重要作用,执行复杂的生物功能,如将细胞外信号传导到细胞内,以触发基因表达。大多数蛋白质的功能取决于它们的特定三维结构和特异性分子间相互作用,了解蛋白质的结构及其所... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于注意力机制的蛋白质全局拓扑模型质量评估方法。背景技术:1、蛋白质在生物系统中发挥着重要作用,执行复杂的生物功能,如将细胞外信号传导到细胞内,以触发基因表达。大多数蛋白质的功能取决于它们的特定三维结构和特异性分子间相互作用,了解蛋白质的结构及其所有特定的构象是至关重要的。在蛋白质结构预测过程中,在没有真实的参考结构的情况下,需要借助模型质量评估方法从众多预测模型中选择良好的结构模型。模型质量评估还为研究人员在生物医学研究中应用蛋白质结构模型提供了有价值的信息,直接关系到目标发现和药物设计的效率。因此研究蛋白质结构模型质量评估对于预测蛋白质结构以及将其应用于蛋白质功能和相互作用的研究具有重要意义。技术实现思路1、为了克服预测蛋白质全局拓扑模型质量评估的问题,本发明提出了一种于注意力机制的蛋白质全局拓扑模型质量评估方法,设计了一种新的蛋白质全局拓扑模型质量评估方法,从输入的蛋白质结构和序列中提取一维、二维、三维信息作为网络的输入,捕获蛋白质结构、序列与全局拓扑质量的潜在联系,最后预测出的蛋白质全局拓扑分数,这对蛋白质功能和相互作用的研究具有重要意义。2、本发明解决其技术问题所采用的技术方案是:3、一种基于注意力机制的蛋白质全局拓扑模型质量评估方法,所述方法包括以下步骤:4、1)构建数据集:在蛋白质数据库pdb库中以设定的分辨率、序列冗余度和残基长度为条件筛选出n个天然蛋白质,并对这些天然蛋白质使用比较建模,结构扰动和深度学习指导折叠等方法生成天然结构对应的扰动结构,天然结构和扰动结构合并作为数据集,从构建的数据集中随机挑出na个蛋白质作为训练集,nb个蛋白质作为测试集,其余蛋白质作为验证集;5、2)制作标签数据:对于每个扰动结构而言,将其与对应的天然结构进行结构比对计算出其模板建模评分tm-score作为标签,天然结构的标签设置为1;6、3)提取特征:对数据集中的每个蛋白质结构,提取其一维、二维、三维特征并拼接;7、4)搭建网络模型:网络由三个部分组成,第一部分三维卷积网络组成,第二部分是多头图注意力网络组成,第三步部分由轴向注意力机制网络组成;8、5)训练模型参数:使用xavier初始化网络参数,使用adam optimizer对网络权重进行优化,使用mse作为损失函数优化网络参数;9、6)得到蛋白质全局拓扑分数:首先从输入结构中提取特征,输入网络中,经过一系列的神经网络后得到一个蛋白质全局拓扑分数。10、进一步,所述步骤1)中,序列冗余度40%和长度在50-300个残基为条件筛选出n个天然蛋白质。11、再进一步,所述步骤3)的过程如下:12、3.1)使用pyrosetta获得每个蛋白质结构的单体能量项,使用dssp算法求解出每个蛋白质结构的二级结构(l、e、f),氨基酸序列1-hot编码,blosum62打分矩阵,氨基酸属性,主链角度和长度合并得到l×80的一维特征;13、3.2)使用pyrosetta获得每个蛋白质结构的残基对能量项,残基对二面角根据每个残基中原子的三维空间坐标,计算每对残基之间的cα原子-cα原子、cα原子-tip原子、tip原子-cα原子的欧氏距离,合并得到l×l×32的二维特征;14、3.3)以上一个残基的c原子指向当前残基的n原子的方向为轴方向,以垂直于轴方向并使当前残基的cα原子位于平面上建立轴,由确定的方向定义轴,建立当前残基的局部三维坐标系,获取当前坐标系下内的所有原子的空间坐标,并将的大立方体空间平均分为20×20×20个边长为的小立方体,每个立方体赋值v,计算公式如下:15、16、其中,n表示大立方体内原子的数量,表示小立方体中心位置的坐标,表示第i个原子的坐标,ti表示167维的单位向量,用来表示原子的类型,由此得到l×20×20×20×167的三维特征;17、3.4)步骤3.3)中得到的三维特征经过一系列三维卷积后再展平成l×640的一维特征,与步骤3.1)中得到的一维特征拼接成l×720的特征,送入多头图注意力网络,输出为l×128的特征,经过水平和垂直条带化后与步骤3.2)中得到的二维特征拼接为l×l×160的特征,通过一个二维卷积层,得到最终维度为l×l×128的特征,送入至注意力神经网络再经过二维卷积层和二维平均池化层后输出一个蛋白质的全局拓扑分数。18、更进一步,所述步骤4)的过程如下:19、4.1)步骤4)中第一部分由三层三维卷积层组成,其卷积核数量分别为20,30,20,卷积核的大小分别为1×1×1,3×3×3,4×4×4,通过gelu激活函数后,最终通过核大小为4×4×4,步长为4的三维平均池化层;20、4.2)第二部分由多头图注意力网络组成,其使用图注意力层,使用8个注意21、力头数,每个图注意力层后通过一个归一化层和gelu激活函数;22、4.3)第三部分由有五个轴向注意层组成,轴向注意力的公式如下所示:23、24、qij=wqxij25、kik=wkxik26、vik=wvxik27、其中,xij表示残基对(i,j),wo、wq、wk、wv表示线性变换,c表示通道数,h表示注意力头数,f表示softmax函数;28、通过轴向注意层之后通过卷积核数量为1,卷积核大小为1×1的二维卷积层,最后经过一个核大小为l×l的二维平均化层。29、本发明的有益效果主要表现在:利用深度学习网络的强大信息提取能力,捕获了蛋白质的序列和结构信息与质量的潜在联系,能较为准确的预测蛋白质全局拓扑分数,对于预测蛋白质结构以及将其应用于蛋白质功能和相互作用的研究具有重要意义。技术特征:1.一种基于注意力机制的蛋白质全局拓扑模型质量评估方法,其特征在于,所述方法包括以下步骤:2.如权利要求1所述的基于注意力机制的蛋白质全局拓扑模型质量评估方法,其特征在于,所述步骤1)中,在蛋白质数据库pdb库中以分辨率序列冗余度40%和长度在50-300个残基为条件筛选出n个天然蛋白质。3.如权利要求1或2所述的基于注意力机制的蛋白质全局拓扑模型质量评估方法,其特征在于,所述步骤3)的过程如下:4.如权利要求1或2所述的基于注意力机制的蛋白质全局拓扑模型质量评估方法,其特征在于,所述步骤4)的过程如下:技术总结一种基于注意力机制的蛋白质全局拓扑模型质量评估方法,首先在蛋白质数据库PDB库中筛选出限定长度,分辨率和序列冗余度的蛋白质,对每个天然结构的蛋白质采用比较建模,结构扰动和深度学习指导折叠生成扰动结构的蛋白质。对于每个结构,提取其一维、二维、三维特征,不同维度的特征通过一系列多头图注意力网络、展开并拼接在一起,最后经过一种使用注意力机制的深度神经网络,预测出蛋白质的全局质量。本发明能有效的预测出蛋白质的全局拓扑分数,对于进一步挑选最佳的蛋白质模型结构具有重要意义。技术研发人员:张贵军,赵炫锋,刘栋,王浩东,王鹏成受保护的技术使用者:浙江工业大学技术研发日:技术公布日:2024/8/16