用于预测致病性的蛋白质语言模型的掩模图案的_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

用于预测致病性的蛋白质语言模型的掩模图案的

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


用于预测致病性的蛋白质语言模型的掩模图案的
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应的数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及使用神经网络以分析有序数据。文献并入以...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应的数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及使用神经网络以分析有序数据。文献并入以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:sundaram,l.等人,predicting the clinical impact of human mutation withdeep neural networks.nat.genet.50,1161-1170(2018);jaganathan,k.等人,predicting splicing from primary sequence with deeplearning.cell 176,535-548(2019);同时提交的名称为“pathogenicity language model”的美国专利申请(代理人案卷号illm 1063-3/ip-2296-us2);2017年10月16日提交的名称为“training a deep pathogenicity classifierusing large-scale benign training data”的美国专利申请62/573,144号(代理人案卷号illm 1000-1/ip-1611-prv);2017年10月16日提交的名称为“pathogenicity classifier based on deepconvolutional neural networks(cnns)”的美国专利申请62/573,149号(代理人案卷号illm 1000-2/ip-1612-prv);2017年10月16日提交的名称为“deep semi-supervised learning thatgenerates large-scale pathogenic training data”的美国专利申请62/573,153号(代理人案卷号illm 1000-3/ip-1613-prv);2017年11月7日提交的名称为“pathogenicity classification of genomicdata using deep convolutional neural networks(cnns)”的美国专利申请62/582,898号(代理人案卷号illm 1000-4/ip-1618-prv);2018年10月15日提交的名称为“deep learning-based techniques fortraining deep convolutional neural networks”的美国专利申请16/160,903号(代理人案卷号illm 1000-5/ip-1611-us);2018年10月15日提交的名称为“deep convolutional neural networks forvariant classification”的美国专利申请16/160,986号(代理人案卷号illm 1000-6/ip-1612-us);2018年10月15日提交的名称为“semi-supervised learning for training anensemble of deep convolutional neural networks”的美国专利申请16/160,968号(代理人案卷号illm 1000-7/ip-1613-us);2018年10月15日提交的名称为“deep learning-based splice siteclassification”的美国专利申请16/160,978号(代理人案卷号illm 1001-4/ip-1680-us);2019年5月8日提交的名称为“deep learning-based techniques for pre-training deep convolutional neural networks”的美国专利申请16/407,149号(代理人案卷号illm 1010-1/ip-1734-us);2021年4月15日提交的名称为“deep convolutional neural networks topredict variant pathogenicity using three-dimensional(3d)protein structures”的美国专利申请17/232,056号(代理人案卷号illm 1037-2/ip-2051-us);2021年4月15日提交的名称为“multi-channel protein voxelization topredict variant pathogenicity using deep convolutional neural networks”的美国专利申请63/175,495号(代理人案卷号illm 1047-1/ip-2142-prv);2021年4月16日提交的名称为“efficient voxelization for deep learning”的美国专利申请63/175,767号(代理人案卷号illm 1048-1/ip-2143-prv);2021年9月7日提交的名称为“artificial intelligence-based analysis ofprotein three-dimensional(3d)structures”的美国专利申请17/468,411号(代理人案卷号illm 1037-3/ip-2051a-us);2021年10月6日提交的名称为“protein structure-based protein languagemodels”的美国临时专利申请63/253,122号(代理人案卷号illm 1050-1/ip-2164-prv);2021年11月19日提交的名称为“predicting variant pathogenicity fromevolutionary conservation using three-dimensional(3d)protein structurevoxels”的美国临时专利申请63/281,579号(代理人案卷号illm 1060-1/ip-2270-prv);以及2021年11月19日提交的名称为“combined and transfer learning of avariant pathogenicity predictor using gaped and non-gaped protein samples”的美国临时专利申请63/281,592号(代理人案卷号illm 1061-1/ip-2271-prv)。背景技术:1、本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。2、可获得的生物序列数据的激增已经导致多种计算方法,这些方法从序列数据推断蛋白质的三维结构、生物学功能、适应性和进化历史。所谓的蛋白质语言模型,类似基于transformer架构的那些,已经通过使用掩蔽语言建模目标在蛋白质序列的大集合上进行了训练,该掩蔽语言建模目标是在给定周围氨基酸的情况下填充序列中的掩蔽氨基酸。3、蛋白质语言模型捕获长程依赖性,学习蛋白质序列的丰富表示,并且可用于多个任务。例如,蛋白质语言模型可以无监督的方式从单一序列预测结构接触。4、蛋白质序列可被分类为同源蛋白质家族,其起源于祖先蛋白质并且共享类似的结构和功能。分析同源蛋白质的多序列比对(msa)提供了关于功能和结构限制的重要信息。代表氨基酸位点的msa列的统计标识了在进化期间保存的功能性残基。msa列之间氨基酸使用的相关性包括关于功能区段和结构接触的重要信息。5、语言模型最初是为自然语言处理而开发的,并且以简单但强大的原理进行操作:它们通过学习填充句子中的缺失单词来获得语言理解,类似于标准化测试中的句子填空任务。语言模型通过将该原理应用于大文本语料库来开发强大的推理能力。来自transformer的双向编码器表示(bert)模型使用transformer具现化了该原理,transformer是一类神经网络,其中注意力是学习系统的主要部件。在transformer中,输入句子中的每一个标记可通过交换对应于神经网络中神经元的中间输出的激活模式来“注意”所有其他标记。6、类似msa transformer的蛋白质语言模型已被训练以从进化相关序列的msa进行推断。msa transformer将每序列(“行”)注意力与每位点(“列”)注意力交错以并入上位性。上位性导致某些蛋白位置的共进化。突变在一个位点处的效应取决于在其他位点处存在或不存在突变,其会影响突变。msa transformer中行注意力头的组合已导致最先进的无监督结构接触预测。7、应用用于预测变体效应的端对端深度学习方法,从蛋白质序列和序列保守性数据预测错义变体的致病性(参见sundaram,l.等人,predicting the clinical impact ofhuman mutation with deep neural networks.nat.genet.50,1161-1170(2018),本文中称为“primateai”)。primateai使用在已知具有致病性的变体上训练的深度神经网络,其中使用跨物种信息进行数据增强。特别地,primateai使用野生型蛋白质和突变型蛋白质的序列来比较差异,并且使用受过训练的深度神经网络来决定突变的致病性。此类利用蛋白质序列进行致病性预测的方法是有前途的,因为其可避免圆度问题和对先前知识的过度拟合。与有效训练深度神经网络的数据的充分数目相比,clinvar中可用的临床数据的数目相对较少。为了克服这种数据匮乏,primateai使用常见的人类变体和来自灵长类动物的变体作为良性数据,而将基于三核苷酸背景的未标记数据的突变率匹配的样本用作未知数据。8、使用蛋白质语言模型和msa用于变体致病性预测的机会出现。可得到更准确的变体致病性预测。技术实现思路

用于预测致病性的蛋白质语言模型的掩模图案的