一种基于迁移学习的抗冻蛋白分型预测方法
发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本发明属于生物信息,具体涉及一种基于迁移学习的抗冻蛋白分型预测方法。、抗冻蛋白(afp)是一种广泛存在于植物、冷水鱼类、昆虫以及微生物和细菌中的蛋白质。在生物体内,当水分子在低温条件下凝结成冰晶时,这些冰晶可能对细胞内部或组织间造成破坏。afp的主要功能是在低温环境下与生物体内的冰晶结合,... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本发明属于生物信息,具体涉及一种基于迁移学习的抗冻蛋白分型预测方法。背景技术:1、抗冻蛋白(afp)是一种广泛存在于植物、冷水鱼类、昆虫以及微生物和细菌中的蛋白质。在生物体内,当水分子在低温条件下凝结成冰晶时,这些冰晶可能对细胞内部或组织间造成破坏。afp的主要功能是在低温环境下与生物体内的冰晶结合,并改变其生长特性,从而防止冰晶对细胞和组织造成损害。这种蛋白通过与冰晶相互作用,能够降低冰点、抑制冰晶的生长速度,并改变冰晶的形态,从而保护细胞和组织在低温环境下的完整性,在食品与医药领域,由于冷冻技术的广泛应用,冰晶的成核和重结晶过程往往对解冻后的冷冻保存物品,如医药、食品、甚至器官等,造成结构性的损害。因此,对于afp的深入研究,有望为这些有机生物体的冷冻保存提供一种安全且可靠的保存方式。通过利用afp的特性,可以有效地减轻或避免冷冻过程中冰晶对生物组织的破坏,从而确保冷冻物品在解冻后能够保持其原有的结构和功能。目前已知的抗冻蛋白在鱼类中主要分为ⅰ-ⅳ型抗冻蛋白,此外还存在昆虫抗冻蛋白和抗冻糖蛋白(afgp)。在这些afps中,ⅰ型afp富含丙氨酸并具有α-螺旋几何结构,冬季鲆鱼afp与冰平面的相互作用被检测为金字塔平面,i型与冰的二级棱柱面结合。ⅱ型是目前已知的存在鱼类中的最大的afp,二型afp含有大量球蛋白并与冰晶的金字塔平面结合以抑制冰晶的生成。ⅲ型与冰晶的金字塔面和棱柱面结合。与长角鲟有关的iv型afp不与冰平面结合。afgp被认为是高度保守的,包含afgp-ⅰ至afgp-ⅷ等八个类别。2、传统鉴定功能基因的方法是基于序列比对来建立同源性,由于各型afp的在作用机制,物种分布中差异较大,afp间的结构与序列存在高度异质性。通过传统的生物信息学手段无法全面地分析afp。目前,多个用于识别afp的模型被提出,其中基于特征的机器学习模型在抗冻蛋白的识别上,取得良好的预测准确率,其通过设定的4个特征来收集局部和全局描述符,并通过支持向量机与随机森林算法的机器学习分类器评估特征向量。与基于同源性、规则、概率等特征的机器学习模型相比,另一种构建基于学习的afp预测模型的策略是利用深度学习技术,它通过构建深度神经网络模型,能够自动学习和提取数据中的有用信息。在蛋白质结构预测领域,深度学习模型已取得了显著成果,能够精准预测未知蛋白质的结构。然而,由于蛋白质序列的复杂性和多样性,训练一个具有高性能的深度学习模型仍然是一个挑战。尤其是在数据稀缺或标注数据不足的情况下,模型的泛化能力和预测精度往往受到限制。为了克服这些挑战,迁移学习被引入到蛋白质结构域预测领域,利用在源领域学到的知识来帮助目标领域进行学习的技术。在蛋白质结构域预测中,可以利用在大规模数据集上预训练的深度学习模型作为源领域模型,通过迁移学习将其学到的特征提取和分类能力迁移到蛋白质结构域预测这一目标领域中。具体而言,将经过编码和预处理的蛋白序列数据被输入到深度卷积神经网络模型中进行训练,使模型能够自动学习并提取序列中的关键特征。通过这种方式,模型能够在不需要人为手动选择特征的情况下,从数据中学习并预测afp的存在。3、afp序列识别的模型搭建主要集中在序列二元分类任务上,但是不同afp种类间抗冻蛋白的分类模型尚未有研究,并且模型的构建大多基于从头训练的模型,导致在训练样本数量较少的情况下模型的性能和准确率都无法达到要求。针对蛋白质序列的多标签分类模型现已有较为深入的研究,目前主要的蛋白序列多标签分类模型的标签为go注释信息,这些模型使用大量去除重复的蛋白质序列做为训练样本,对上千个功能注释进行训练并被应用在互花米草的hkt基因鉴定上。本发明在基于proteinbert模型迁移学习的基础上,引入对抗冻蛋白结构域注释做为模型的训练标签,对现有的抗冻蛋白训练集进行结构域注释,整合了含有抗冻蛋白结构域的序列集—antifreezedomains,最后筛选出27个在抗冻蛋白中常见的结构域作为训练标签,建立集合抗冻蛋白识别以及分型于一体的抗冻蛋白识别模型bert-domainafp。技术实现思路1、针对以上问题,本发明提供一种基于迁移学习的抗冻蛋白分型预测方法,通过建立bert-domainafp模型对抗冻蛋白进行识别以及分型,该模型对抗冻蛋白的识别与预测的精度高、准确率高、特异性好、灵敏度高,且预测的效率高、稳定性好。2、本发明通过以下技术方案实现:3、一种基于迁移学习的抗冻蛋白分型预测方法,包括以下步骤:4、s1、收集已经过结构域注释的抗冻蛋白序列与非抗冻蛋白序列,作为正数据集和负数据集,并以所有抗冻蛋白序列的结构域关键词频率作为编码标签,提取出所有出现频率大于10的抗冻蛋白相关结构域;5、s2、根据正数据集和负数据集与抗冻蛋白序列数量的平衡程度,采取过采样和欠采样的方法进行数据平衡,将数据集中达到设定结构域频率的结构域作为数据集标签;6、s3、选择proteinbert模型对抗冻蛋白序列数据集进行特征提取以转化为高维特征向量,并将其输入模型中进行训练,使抗冻蛋白序列与结构域标签之间形成对应关系,从而构建出bert-domainafp模型;7、s4、将待鉴定的蛋白序列数据或整合过的物种蛋白序列数据输入训练后的bert-domainafp模型中进行预测,得到其对应的结构域预测值;8、s5、设定目标数据标签,若bert-domainafp模型输出的结构域预测值与目标数据标签相同,则判定待鉴定的蛋白序列中存在抗冻蛋白序列结构域。9、进一步地,步骤s1中,所述抗冻蛋白序列根据结构域被分为ⅰ型抗冻蛋白、ⅱ型抗冻蛋白、ⅲ型抗冻蛋白、昆虫抗冻蛋白和其他抗冻蛋白相关结构域5个主要标签。10、进一步地,步骤s1中,所述负数据集使用搜索于uniprotkb的已审阅非抗冻蛋白序列,其中获得结构域注释的负数据集和未能获得结构域注释的负数据集比例为1:19。11、进一步地,步骤s2中,所述数据集划分为训练集、验证集和测试集,比例设置为7:1:2。12、进一步地,步骤s2中,所述采取过采样和欠采样的方法进行数据平衡具体为:对少于150条样本的ⅰ型抗冻蛋白、ⅱ型抗冻蛋白和昆虫抗冻蛋白进行过采样,并对多于150条样本的ⅲ型抗冻蛋白和其他抗冻蛋白相关结构域进行欠采样,保证多种类型的抗冻蛋白种类平衡。13、进一步地,步骤s2中,所述数据集标签将其编码为长度阈值为1024的一维向量,使用20个蛋白质对应的整数数字作为编码标记,对于长度不足的序列,采用0填充的方式进行处理。14、进一步地,步骤s3中,所述proteinbert模型的架构采用6个注意力头、4层深度的transformer结构。15、进一步地,步骤s3中,所述proteinbert模型使用高斯误差线性单元gelu作为激活函数;并引入膨胀率=5的宽卷积层和窄卷积层,卷积核大小均为9;以及使用线性层输出模型的预测值。16、进一步地,步骤s3中,还包括采取重复随机子抽样的方法对proteinbert模型进行验证,验证过程中主要采用准确率、敏感性、特异性、马修斯相关系数、精确率和召回率指标进行评估。17、进一步地,所述proteinbert模型的验证分为两部分,一部分是将模型看作二分类模型,其中的抗冻蛋白和非抗冻蛋白的数据集比例为1:1;另一部分是将模型作为多标签分类模型,其中非抗冻蛋白、ⅰ型抗冻蛋白、ⅱ型抗冻蛋白、ⅲ型抗冻蛋白、昆虫抗冻蛋白和其他抗冻蛋白相关序列的数据集比例为5:1:1:1:1:1。18、与现有技术相比,本发明的优点及有益效果为:19、1、本发明的bert-domainafp模型特征提取能力强,其能够自动从蛋白质序列中提取出复杂的特征信息,避免传统方法中需要手动设计和选择特征的繁琐过程。同时,模型对抗冻蛋白预测的准确率为98.48%,特异性为99.80%,灵敏度为99.70%,预测准确率高、特异性好、灵敏度高、预测精度高。本发明通过构建深层的神经网络结构,能够学习并捕捉蛋白质序列中的高级抽象特征,从而提高抗冻蛋白识别和预测的效率、准确性和可靠性。20、2、本发明通过迁移学习和bert模型的利用,有效提高模型训练速度和预测准确性。本发明bert-domainafp模型采用迁移学习,通过扩展现有的预训练proteinbert模型,大幅减少训练所需的计算资源,加快模型的收敛速度,加快了模型开发和部署过程。proteinbert模型的复杂深度学习架构的整合,赋予bert-domainafp模型很好的预测准确性,能够熟练捕捉蛋白质序列内的复杂模式和依赖关系,从而提高了抗冻蛋白识别和分类的精度。21、3、本发明应用结构域注释进行抗冻蛋白分型,为bert-domainafp模型引入一种新的方法,使用结构域注释作为标签,这使得模型能够区分并分类抗冻蛋白。这种方法不仅允许模型预测抗冻蛋白的存在,而且还能根据它们独特的结构域特征将抗冻蛋白分类为特定类型,从而提供了对抗冻蛋白的特性和功能更深入的理解。22、4、本发明通过过采样和欠采样增强处理不平衡数据集的能力。为了解决数据不平衡问题,本发明bert-domainafp模型建立过程中对数据进行多重欠采样和过采样,以确保训练过程中能够充分学习各种数据的特征。即使在更不平衡的数据集上进行测试,模型的预测能力也具有很高的水平,表明该模型不仅适用于平衡数据集,而且能够有效应对不平衡数据集的挑战。23、5、本发明的bert-domainafp模型能够有效地处理和分析大规模的生物信息学数据,提高预测的效率、准确性和稳定性。同时,其还具有良好的可扩展性和通用性,可以适应不同类型的蛋白质序列和结构域预测任务,对于抗冻蛋白领域的研究具有很好的应用价值。