一种蛋白质分子动力学模拟轨迹的分析系统_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

一种蛋白质分子动力学模拟轨迹的分析系统

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


一种蛋白质分子动力学模拟轨迹的分析系统
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明属于生物信息学,具体涉及一种蛋白质分子动力学模拟轨迹的分析系统。、分子动力学(md)模拟技术是一种使用计算机模拟的方法,它允许科学家在在原子水平上模拟和理解生物大分子,如蛋白质和核酸的动态行为。通过分子动力学模拟,科学家可以获得关于生物分子结构、动力学和功能之间复杂相互作用的深入见解...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明属于生物信息学,具体涉及一种蛋白质分子动力学模拟轨迹的分析系统。背景技术:1、分子动力学(md)模拟技术是一种使用计算机模拟的方法,它允许科学家在在原子水平上模拟和理解生物大分子,如蛋白质和核酸的动态行为。通过分子动力学模拟,科学家可以获得关于生物分子结构、动力学和功能之间复杂相互作用的深入见解。这种技术的核心在于求解牛顿运动定律,通过计算分子之间的相互作用力及其随时间的变化来预测分子系统的运动轨迹。这一过程涉及到大量的计算,因为它需要处理成千上万个粒子之间复杂的相互作用。分子动力学模拟在化学、物理、生物学以及材料科学等众多领域都有广泛的应用。2、分子动力学模拟的原理基于经典力学,特别是牛顿的第二定律(f=ma),其中f是作用在粒子上的合力,m是粒子的质量,a是粒子的加速度。模拟的第一步是定义系统的初始状态,包括所有粒子的位置和速度。接下来,计算在这一状态下粒子之间的相互作用力,这些力可以通过各种力场模型来计算,如lennard-jones势、库仑力等。有了这些力,就可以使用牛顿的第二定律计算出粒子的加速度,进而更新粒子的速度和位置。重复这个过程,就可以得到粒子随时间的运动轨迹。3、得到了模拟轨迹后,研究者要根据自己的需求,对模拟轨迹进行分析。例如,对于蛋白质体系,通过计算分析其均方根偏差(rmsd)、均方根波动(rmsf)等值,可以用于评估蛋白整体结构的稳定性,有哪些稳定和灵活的区域,以及在模拟体系下结构随时间的变化等。通过分析蛋白质残基间的氢键、盐桥、疏水相互作用等非键相互作用的形成情况,细致探究蛋白质的动力学特征,可以用于发掘蛋白质维持特定结构、发挥特定功能的动态过程及工作机制。这些分析步骤一般通过分子动力学模拟轨迹分析工具完成,但对于研究者要进行特殊的计算分析,或进行大批量的数据处理时,通常需要通过自行编写代码实现。4、vmd(visual molecular dynamics)是一款开源的分子动力学模拟轨迹分析与可视化工具。它主要用于建模、模拟以及可视化大分子复合体的结构,如蛋白质、核酸和脂质双层等。vmd能够支持多种文件格式和多种可视化方法,包括立体显示和光线追踪渲染,这使得用户能够高质量地展示复杂的分子结构和动力学过程。vmd的主要特点包括:(1)高性能的分子图形:vmd设计用于可视化非常大的分子装配体,能够高效地处理含有数十万到数百万原子的系统。(2)用户友好的界面:提供图形用户界面(gui)和命令行操作,使得用户可以方便地加载数据、执行分析以及调整视图和渲染设置。(3)模拟轨迹分析工具:内置了多种分子分析工具,如距离测量、角度测量、原子查询、动力学分析等。(4)可扩展性:vmd可以通过插件系统扩展新的功能,社区提供了大量的插件,如分子动力学模拟前端界面、特殊的分析工具等。(5)多平台支持:vmd可在多种操作系统上运行,包括windows、macos和linux。(6)vmd广泛用于科研和教育中,特别是在生物物理和药物设计领域,帮助科研人员和学生更好地理解分子结构和动态行为。但是它有以下不足:分析功能由不同的插件提供,调用时接口的使用方式也不同,在分析多种数据时,用户需要分别记下各个接口的使用方式,并编写多个脚本,用于批量提交数据处理任务。另外,这些插件输出数据的格式、图片的风格等区别较大,导致用户往往需要对得到的数据进行进一步的处理,并另外绘图。且部分插件在计算分析轨迹时可调参数较少,不能满足现实情况中用户多样的分析需求。5、尽管现有的分析工具能够处理md模拟轨迹并提供一系列分析指标,如均方根偏差(rmsd)、均方根波动(rmsf)等,但它们往往在功能上不能全面满足研究人员对于数据处理和分析的复杂需求,或者要求用户具备一定的编程技能。特别是在进行大规模数据分析时,如批量处理多个模拟轨迹并提取多种分析指标,现有工具的使用可能变得尤为繁琐和耗时,这限制了md模拟在生物分子研究中的应用潜力。技术实现思路1、为了解决现有技术中的不足,本发明的目的在于提供一种蛋白质分子动力学模拟轨迹的分析系统,该分析系统基于python的分子动力学模拟轨迹分析工具,为分子动力学模拟研究领域提供一个高效、直观且用户友好的解决方案,以支持用户对分子动力学模拟数据进行大规模、多样化的分析。2、具体技术方案如下:3、本发明提供一种蛋白质分子动力学模拟轨迹的分析系统,包括轨迹预处理模块、轨迹计算分析模块和计算结果可视化模块;4、所述轨迹预处理模块包括轨迹片段拆分子模块、轨迹拼接子模块、轨迹选取子模块和轨迹对齐子模块;所述轨迹片段拆分子模块用于将指定的每个片段的模拟轨迹保存成单独的轨迹文件和拓扑文件;所述轨迹拼接子模块用于将多个拓扑结构相同的轨迹拼接成一条大的轨迹文件;所述轨迹选取子模块用于将选取的轨迹结构中特定的区域保存成独立的轨迹文件和拓扑文件;所述轨迹对齐子模块用于以指定轨迹中的某一帧作为参考,将轨迹中的其他帧的结构与其对齐,并将对齐后的轨迹保存为轨迹文件和拓扑文件;5、所述轨迹计算分析模块包括残基间相互作用计算子模块、残基距离计算子模块、残基动态相关系数矩阵计算子模块、蛋白均方根偏差计算子模块、蛋白均方根浮动计算子模块和结构聚类子模块;所述残基间相互作用计算子模块用于执行氢键、疏水相互作用、π-π键、盐桥的计算;6、所述计算结果可视化模块包括残基间相互作用可视化子模块、残基间距离可视化子模块、残基动态相关系数矩阵可视化子模块、蛋白均方根偏差可视化子模块与均方根浮动可视化子模块。7、轨迹预处理模块包含几种子模块对分子模拟轨迹预处理,用于对轨迹进行批量拆分、合并或删除特定部分,从而提高后续分析的计算速度与内存占用,或方便用户按照需要的方式组织多次模拟的轨迹,方便后续分析。8、轨迹片段拆分子模块:用户可指定模拟体系中的某些片段(segment),该模块会将模拟轨迹中用户指定的每个片段都保存成单独的轨迹文件,用于后续分析。如果后续分析只涉及体系中的某个片段,把该片段的体积提取出来可以显著减小分析时轨迹的内存占用。如果模拟体系包含多个重复的片段,如蛋白的同源多聚体,可以将相同片段拆分后同步分析。轨迹片段拆分子模块用于执行如下步骤:首先,用户需将要拆分出来的片段的片段名(segname)以列表的形式传输给程序,程序会在加载用户指定的模拟轨迹后,遍历列表中的所有片段名,对于每个片段名,都会选取轨迹中对应的结构,并保存成单独的轨迹文件和拓扑文件。9、轨迹拼接子模块:用户可将多个拓扑结构相同的轨迹拼接成一条大的轨迹。这个工具可方便用户对轨迹进行批量分析。轨迹拼接子模块用于执行如下步骤:首先,用户需要指定多个轨迹文件,并指定这些轨迹文件共用的拓扑文件,然后该工具会加载拓扑文件,并依照用户指定的顺序,将所有拓扑文件加载到轨迹文件上,最后保存对应整条轨迹的轨迹文件和拓扑文件。10、轨迹选取子模块:用户可通过结构选取语句选取轨迹结构中特定的区域,并将该区域保存成独立的轨迹。该方法同样用于提取用户感兴趣的结构,以便在后续计算分析中提高轨迹加载速度并减少内存占用。11、轨迹对齐子模块:用户可指定轨迹中的某一帧作为参考(reference),将轨迹中的其他帧的结构都对齐(align)到这一帧上,并将对齐后的轨迹保存。该处理能方便后续进行聚类、计算口袋大小等操作。12、残基间相互作用计算子模块:相互作用计算子模块的功能包括氢键、疏水相互作用、盐桥、π-π键的计算。执行如下步骤:在加载分子动力学模拟轨迹后,会选取结构中的所有蛋白质,并将蛋白质中全部氨基酸残基的残基编号(resid)、残基中全部原子的原子编号(index)配对储存在字典里,用于加快后续相互作用判断的过程,避免反复的原子选取。不同相互作用的具体判断方法如下:13、氢键:选取蛋白质中所有的氮原子、氧原子,作为潜在氢键受体,并将它们的原子编号储存在字典中,与残基编号对应。选取蛋白质中所有的氢原子,并判断它们是否与蛋白质中的氮原子或氧原子直接键连,直接键连的氢原子即为极性氢原子,它们键连的氮原子或氧原子即为潜在氢键供体,将潜在氢键供体的原子编号存储在字典中,与残基编号对应。创建一个3维数组,第0、第1维(axis)长度均等于残基总数,第2维长度等于轨迹总帧数,用于储存氢键轨迹。从轨迹的第一帧开始,计算每一帧蛋白结构中的所有氢键(判断氢键的键长与键角可设置,默认为3.0埃与30度),并返回氢键供体、受体的原子编号。通过潜在氢键受体字典、潜在氢键供体字典快速查找供体、受体(极性氢原子)原子编号对应的残基编号,并在氢键轨迹数组的特定位置(第0、第1维为供体、受体的残基编号,第2维为当前所在的帧数)加1,由于是对角矩阵,第0、第1维的数交换后的位置也同时加1。由此遍历每对供体和受体后,当前帧的氢键记录完成,通过此方式遍历所有帧后,氢键轨迹的记录完成,将氢键轨迹数组输出成numpy二进制数组文件保存,方便后续分析调用。14、疏水相互作用:选取蛋白质中所有的碳原子,选取蛋白质中所有的氮原子、氧原子,判断碳原子中有哪些原子与氮原子、氧原子直接键连,排除这些原子后,剩下的碳原子为非极性碳,将它们原子编号储存在字典中,与残基编号对应。对于某一帧结构,判断当前帧中所有小于截断距离(可设置,默认4.0埃)的非极性碳原子对,返回它们的原子编号。这些小于截断距离的非极性碳原子对所在的残基之间视为发生了疏水相互作用。后续疏水相互作用轨迹的生成与保存方式与氢键部分基本相同,可参考前文。15、盐桥:选取蛋白质中所有酸性氧原子,所谓盐桥的潜在阴离子供体,并将它们的原子编号储存在字典中,与残基编号对应。选取蛋白质中所有碱性氮原子,所谓盐桥的潜在阳离子供体,并将它们的原子编号储存在字典中,与残基编号对应。对于某一帧结构,判断当前帧中所有小于截断距离(可设置,默认3.2埃)的阴离子供体-阳离子供体对,返回它们的原子编号。这些小于截断距离的阴离子供体-阳离子供体对所在的残基之被间视为形成了盐桥。后续盐桥轨迹的生成与保存方式与氢键部分基本相同,可参考前文。16、π-π相互作用:根据charmm力场(chemistry at harvard macromolecularmechanics)的原子命名规则,选取蛋白质中所有的芳香环,并将这些芳香环的原子编号储存在字典中,与残基编号对应。对于某一帧结构,判断当前帧中所有质心距离小于截断距离(可设置,默认5埃)的芳香环对,这些质心距离小于截断距离的芳香环对所在的残基之间被视为形成了π-π相互作用。后续π-π相互作用轨迹的生成与保存方式与氢键部分基本相同,可参考前文。17、残基距离计算子模块:该模块加载用户输入的模拟轨迹,选取轨迹中的蛋白质结构,计算蛋白质全部残基对的残基距离轨迹,可选择以残基质心位置或阿尔法碳(c-alpha)的位置为准计算距离,并保存成二进制格式,方便后续分析使用。首先该模块会将蛋白质所有残基的残基编号保存在一个列表中,然后创建一个3维残基距离轨迹数组,用于保存每一帧的残基间距离,数组的第0、第1维长度等于残基数,第2维长度等于帧数。然后该模块会从第一帧开始,基于这一帧的结构,遍历全部残基对计算每个残基对的全部侧链原子的质心的距离或阿尔法碳的距离,并全部存入该帧的对角数组中,以此方式遍历所有帧,得到完整的残基间距离轨迹,并保存成二进制格式文件。18、残基动态相关系数矩阵(dynamic correlation coefficient matrix)计算子模块:该模块加载用户输入的模拟轨迹,选取轨迹中的蛋白质结构,并提取蛋白质每一帧中的全部阿尔法碳的坐标或残基质心坐标,储存在残基位置轨迹数组中。模块内包含了通过numpy编写的残基动态相关系数矩阵完整计算流程,对计算过程进行了充分的优化,将残基位置轨迹数组输入,即可快速得到轨迹中每一帧蛋白均方根偏差的值,并输出成表格保存。19、蛋白均方根偏差计算子模块:该模块加载用户输入的模拟轨迹,选取轨迹中的蛋白质结构,并提取蛋白质每一帧中的全部阿尔法碳的坐标,储存在阿尔法碳轨迹数组中。模块内包含了通过numpy编写的蛋白均方根偏差完整计算流程,对计算过程进行了充分的优化,将残基对阿尔法碳轨迹数组文件输入,即可快速得到轨迹中每一帧蛋白均方根偏差的值,并输出成表格保存。20、蛋白均方根浮动计算子模块:该模块加载用户输入的模拟轨迹,选取轨迹中的蛋白质结构,并提取蛋白质每一帧中的全部阿尔法碳的坐标,并据此进一步计算每一帧结构中所有残基对的阿尔法碳的距离,将结果储存在阿尔法碳对距离轨迹数组中。模块内包含了通过numpy编写的蛋白均方根浮动完整计算流程,对计算过程进行了充分的优化,将残基对阿尔法碳对距离轨迹数组文件输入,即可快速得到轨迹中每一帧蛋白均方根浮动的值,并输出成表格保存。21、结构聚类子模块:该模块可对轨迹中蛋白质全部帧的结构进行结构聚类,聚类前对齐参考的区域、聚类时考虑的区域都可以设置,默认都是蛋白中的全部阿尔法碳。由于vmd-python模块中没有内置python编写的聚类方法,聚类时只能通过vmd-python的接口功能调用vmd中的聚类算法。首先,加载指定的模拟轨迹,然后根据用户设置的参考结构(ref_sel)对轨迹中的结构进行对齐,再根据用户设置的计算结构(cal_sel),通过质量阈值算法(quality thresholdalgorithm)对轨迹的全部帧进行聚类,并输出聚类结果的文本文件、每一类的代表结构的pdb(protein data bank,蛋白数据库)结构文件。22、残基间相互作用可视化子模块:该模块可将各种残基间相互作用的计算结果可视化,生成简洁、美观的图片并输出。残基间相互作用的图片通过点图(plot)的形式输出,整个图片为n行n列数据点组成的方阵(n为残基数),每个数据点的颜色深浅代表该点所在的行、列编号对应的残基对之间产生相互作用概率的大小。相互作用的概率由残基间相互作用轨迹数组计算得来:首先将轨迹数组中所有非零值设为1(可选步骤,大于一的非零值代表某一帧的某个残基对之间形成了多次该种类相互作用,如一个苏氨酸和另一个精氨酸侧链相对,可能同时形成两个氢键),然后将矩阵沿着第2维求平均(等同于将第2维的值全部相加合并,并除以合并前的长度),最后得到一个n行n列的数组,每一点都对应该点所在的行、列编号对应的残基对之间产生相互作用概率的大小。进一步地,不同蛋白质的残基间相互作用数据对比是一个重要的数据,可以用来衡量不同环境条件、突变等因素对蛋白质动态特性的影响。该模块内置了计算两个蛋白质相互作用矩阵的差并输出的功能,具体而言,输入两个蛋白的相互作用轨迹数组后(蛋白残基数必须相同),该模块会先分别用上文中相同的方法计算出两个n行n列相互作用矩阵,然后将这两个矩阵相减,得到相互作用概率变化矩阵,数值范围为-1.0到1.0,通过热图进行可视化,偏蓝色的点代表相互作用概率降低,偏红色代表相互作用概率提高。23、残基间距离可视化子模块:该模块可根据残基间距离的计算结果绘制图片并输出。该模块的运作方式与残基间相互作用可视化模块基本相同,不同的是残基间距离的数值可能的范围是0到正无穷,所以绘图时要挑选一个上限,默认为15埃,用户可设置,残基对的距离越接近该上限,对应点的颜色越浅,越接近0则颜色越深,即图中颜色深的区域代表结构上有两部分的残基相互靠近。进一步地,该模块同样可计算不同蛋白质的残基间距离变化,绘图时默认取值范围为-8.0埃至8埃,用户可设置。其他方面基本与残基间相互作用可视化模块中相同。24、残基动态相关系数矩阵的可视化子模块:和所述残基间相互作用可视化子模块的运作方式基本相同,区别在于采用了等高线图而非点图,这样可以突出残基动态与周边区域的整体性。25、蛋白均方根偏差可视化子模块与均方根浮动可视化子模块:该模块可根据蛋白均方根偏差与均方根浮动的计算结果绘制图片并输出。这两种数据都通过折线图呈现。用户可输入一组或多组数据,并指定每个数据对应的组名,对于均方根偏差,还需要指定每一帧对应的时长,默认为0.05纳秒,用于计算横坐标代表的时长。随后,该模块会用不同颜色代表不同组的数据,输出均方根偏差随时间变化的折线图,或均方根浮动随残基变化的折线图。26、本发明的有益效果为:27、与vmd(visual molecular dynamics)相比,本发明具有以下几个优点:28、1)集成分析方法与统一的操作流程:本发明集成了氢键、疏水相互作用、π-π键、盐桥、rmsf、rmsd以及距离矩阵等多种分子动力学模拟轨迹分析方法,并通过统一的命令行界面(cli)提供访问,简化了用户的操作流程。相较于vmd,用户不需要分别记住和调用多个插件的不同接口和使用方式,提高了操作的便利性和分析的效率。29、2)用户友好与高效的数据处理:本发明通过命令行界面的设计,使得即便是对编程语言或分子动力学模拟了解不深的用户也能轻松地执行复杂的数据分析任务。这种设计支持批量处理和自动化流程,能够有效地处理和分析大规模数据集,显著提高了数据处理的效率和灵活性。30、3)直观的可视化输出:尽管vmd提供了丰富的可视化功能,本发明也强调了计算功能配备直观的可视化输出的重要性。大多数分析功能都配备了直观的可视化输出,使用户可以快速获得图形化的结果展示,这种即时反馈极大地提高了分析效率,并帮助用户直观理解分子动态行为和相互作用模式。31、综上所述,本发明与vmd相比,主要在于以统一的代码与数据结构集成了多种分析方法并简化了操作流程,同时注重提升用户友好性和数据处理的效率及灵活性,这些都是本发明的明显优点。

一种蛋白质分子动力学模拟轨迹的分析系统