基于补丁编码和混合注意力的药物-靶点亲和力预
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明涉及靶点结合亲和力预测领域,尤其涉及基于补丁编码和混合注意力的药物-靶点亲和力预测方法。、随着人工智能技术的发展,尤其是深度学习技术的不断进步,利用深度学习模型来预测药物-靶标结合亲和力的方法,已经得到了广泛的认可。人工智能的方法,可以帮助筛选潜在的药物候选物,加速药物发现过程。、d... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明涉及靶点结合亲和力预测领域,尤其涉及基于补丁编码和混合注意力的药物-靶点亲和力预测方法。背景技术:1、随着人工智能技术的发展,尤其是深度学习技术的不断进步,利用深度学习模型来预测药物-靶标结合亲和力的方法,已经得到了广泛的认可。人工智能的方法,可以帮助筛选潜在的药物候选物,加速药物发现过程。2、deepdta提出了一种方法,使用深度学习模型仅使用蛋白质和配体的序列字符串来预测蛋白质-配体相互作用的结合亲和力。研究将蛋白质序列和化合物的smiles(simplified molecular input line entry system,简化分子输入线条条目系统)字符串作为模型的输入,而不是使用外部特征或结合复合物的三维结构。widedta模型是deepdta的扩展,在原始特征选取方面,不仅使用了药物分子的smiles码和靶点蛋白的氨基酸序列,还额外使用了蛋白质结构域和基序以及分子最大共同亚结构词。并且测试了同时使用其中两种或三种或四种特征所得到的结果的不同。3、为了改进特征提取能力,很多研究者提出了基于图神经网络的方法。例如,graphdta利用各种原子特征来表示药物化合物,并采用四个gnn来学习药物的图表示。然而,该方法并未考虑蛋白质序列的图表示。为了解决这个问题,dgraphdta利用gnn从药物分子图和蛋白质图中学习特征。但是这种方法需要额外的工具包和方法来构建图模型,并且可解释性较差。4、drugvqa提出了一个用于药物-靶标相互作用任务的问答模型,其中利用顺序注意机制来捕捉动态卷积神经网络(cnn)的依赖关系。从另一个角度来看,matt_dti设计了一个多头注意力模型,将药物表示视为查询,蛋白质表示视为键和值。colddta使用数据增强和基于注意力的特征融合来提高预测药物-靶标结合亲和力的泛化能力。虽然注意力机制已经被广泛研究用于构建成对的长程依赖关系。然而,相对有限的数据会使得这种机制难以提取多样的全局特征,并容易导致注意力崩溃,即注意力图变得相似甚至相同。5、为了更准确获取蛋白质和药物分子的特征表示,asgari和mofrad提出了一种词向量模型,用于获取蛋白质的连续分布表示。此外,rives等人利用esm从250亿蛋白质中的860亿个氨基酸中学习了一个多尺度空间表示。但是目前很少有研究将蛋白质的连续分布和多尺度空间表示结合起来使用。6、目前主流的药物靶标结合亲和力预测方法,都将卷积神经网络(cnn)作为他们模型的一部分来提取蛋白质或者药物序列的特征,卷积神经网络具有空间不变性和通道特异性两大特征:7、空间不变性的特点是参数共享,参数共享能够提升模型的效率,但导致的问题是提取的特征比较单一。尤其是对于药物和靶标序列来说,其在空间上是不具有平移不变性的,氨基酸或者原子的排列顺序不同,就代表者不同的物质。8、通道特异性是指在每个通道上都有不同的卷积核,这样可以更好地提取不同通道的特征,但是经过编码的蛋白质和药物分子序列,是作为单通道数据来用卷积神经网络处理的,无法发挥通道特异性的特点。9、综上所述,现有技术存在药物特征和蛋白质特征提取不准确、以及对药物-靶点亲和力预测精度低等问题。技术实现思路1、本发明提供基于补丁编码和混合注意力的药物-靶点亲和力预测方法,以克服上述技术问题。2、基于补丁编码和混合注意力的药物-靶点亲和力预测方法,包括,3、步骤一、获取靶点蛋白质序列和药物小分子的smiles字符串,对靶点蛋白质序列和药物小分子的smiles字符串进行预处理,4、步骤二、基于词向量方法对预处理后的靶点蛋白质序列进行编码后得到第一编码,基于esm编码方法对预处理后的靶点蛋白质序列进行编码后得到第二编码,所述第一编码与第二编码具有相同的维度,将第一编码和第二编码进行叠加后得到具有二通道的编码向量,5、步骤三、基于词向量方法对预处理后的药物小分子序列的smiles字符串进行编码后得到第三编码,对具有二通道的编码向量进行patch编码操作后得到第一三维张量,对第三编码进行patch编码操作后得到第二三维张量,6、步骤四、构建混合注意力机制,基于混合注意力机制对第一三维张量的局部特征进行学习,基于混合注意力机制对第二三维张量的局部特征进行学习,基于两层卷积神经网络分别对学习后的第一三维张量的局部特征和第二三维张量的局部特征进行处理,7、步骤五、构建双头长短期记忆模型,基于双头长短期记忆模型分别对处理后的第一三维张量的局部特征的依赖关系、处理后的第二三维张量的局部特征的依赖关系以及两者之间的依赖关系进行学习,并将学习后的结果进行逐元素相加并表示为药物-靶点特征,8、步骤六、构建亲和力预测模型,所述亲和力预测模型用于对药物-靶点特征进行学习,根据亲和力预测模型获取药物与靶点蛋白质之间的亲和力预测值。9、优选地,所述基于esm编码方法对预处理后的靶点蛋白质序列进行编码后得到第二编码为获取开源的蛋白质大模型esm-1b,根据蛋白质大模型esm-1b对预处理后的靶点蛋白质序列进行编码后得到第二编码。10、优选地,所述对靶点蛋白质序列和药物小分子的smiles字符串进行预处理包括设定第一阈值和第二阈值,判断靶点蛋白质序列的长度是否超过第一阈值,若是,则对靶点蛋白质序列进行截断处理,反之则采取补0方式将蛋白质序列补齐,判断药物小分子的smiles字符串是否超过第二阈值,若是,则对药物小分子的smiles字符串进行截断处理,反之则采取补0方式将药物小分子的smiles字符串补齐。11、优选地,所述对具有二通道的编码向量进行patch编码操作后得到第一三维张量包括获取具有二通道的编码向量的维度集,从维度集中随机选择一个维度,根据所选的维度对具有二通道的编码向量进行切片后得到新向量,将新向量表示为第一三维张量。12、优选地,所述亲和力预测模型包括三个全连接层和两个dropout层,所述三个全连接层为第一全连接层、第二全连接层和第三全连接层,所述两个dropout层包括第一dropout层和第二dropout层,所述第一全连接层用于接收药物-靶点特征,并作为输入数据传递给隐藏层,其中第一dropout层、第二全连接层和第二dropout层作为隐藏层,隐藏层通过应用激活函数对输入数据进行非线性变换和特征提取以形成待预测特征;所述第三全连接层使用relu激活函数基于待预测特征预测药物与蛋白质的亲和力预测值,并进行输出。13、本发明提供基于补丁编码和混合注意力的药物-靶点亲和力预测方法,通过实验验证,本发明在药物-靶点结合亲和力预测能力和可靠性方面均优于deepdta、deepcda、attentiondta和graphdta等基准模型,通过词向量和esm编码方法对蛋白质序列分别进行特征编码,然后将两种编码结果进行叠加后融合成一个二通道的编码向量,使得向量既能表示蛋白质分子的连续分布特征,又能表示多尺度空间特征;对编码后的蛋白质和药物进行了patch操作,将其堆叠成了[通道数,高,宽]形式的张量;引入了混合注意力机制,其结合了通道注意力和空间注意力机制的能力,进一步提升模型提取局部细节的能力;使用了双头长短期记忆模型来学习蛋白质和药物内部以及它们之间的依赖关系,有效提高深度学习在小分子-靶标结合亲和力预测能力,对于药物发现与优化、副作用预测以及疾病研究和辅助治疗都具有重要理论意义和实践价值。
- 上一篇:用于腔内假体的输送系统和使用方法与流程
- 下一篇:一种腺苷受体双靶点激动剂及其应用