模型训练时的节点通信方法、装置与流程
发布日期:2024-08-21 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370
申请号: | 申请日: | ||
公开(公告)号: | 公开(公告)日: | ||
发明(设计)人: | 申请(专利权)人: | ||
主分类号: | 分类号: | ||
代理公司: | 代理人: | ||
地址: | 国省代码: | ||
权利要求书: | 说明书: | ||
微信咨询: | 添加微信:543646或【点此在线咨询】 | 文件下载: | 【点此下载】请正确填写本页网址和接收邮箱 |
摘要: | 本公开涉及计算机,尤其涉及大语言模型、机器学习、云服务、大数据等人工智能。提供了一种模型训练时的节点通信方法、装置、电子设备与可读存储介质。、在模型训练过程中,尤其是大语言模型的训练过程中,因为参数规模和训练数据量都比较巨大,通常采用混合并行技术。现有技术在基于混合并行技术对模型进行训练时... | ||
相关服务: | 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理 | ||
本公开涉及计算机,尤其涉及大语言模型、机器学习、云服务、大数据等人工智能。提供了一种模型训练时的节点通信方法、装置、电子设备与可读存储介质。背景技术:1、在模型训练过程中,尤其是大语言模型的训练过程中,因为参数规模和训练数据量都比较巨大,通常采用混合并行技术。现有技术在基于混合并行技术对模型进行训练时,训练集群中的一个训练节点(例如gpu)可能在同一时间内执行多个通信任务,多个通信任务会对数据传输的带宽进行公平竞争,从而降低模型的训练效率。技术实现思路1、根据本公开的第一方面,提供了一种模型训练时的节点通信方法,由位于训练集群中的第一训练节点执行,包括:接收待处理训练数据,获取对应所述待处理训练数据的目标通信类型;通过待训练模型对所述待处理训练数据进行处理,得到目标数据,根据所述目标通信类型确定对应所述目标数据的目标连接;根据对应所述目标连接的目标优先级确定目标带宽,通过通信硬件使用所述目标带宽将所述目标数据从所述第一训练节点发送到对应所述目标连接的目标第二训练节点。2、根据本公开的第二方法,提供了一种模型训练时的节点通信装置,位于训练集群中的第一训练节点,包括:接收单元,用于接收待处理训练数据,获取对应所述待处理训练数据的目标通信类型;处理单元,用于通过待训练模型对所述待处理训练数据进行处理,得到目标数据,根据所述目标通信类型确定对应所述目标数据的目标连接;通信单元,用于根据对应所述目标连接的目标优先级确定目标带宽,通过通信硬件使用所述目标带宽将所述目标数据从所述第一训练节点发送到对应所述目标连接的目标第二训练节点。3、根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。4、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。5、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。6、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。技术特征:1.一种模型训练时的节点通信方法,由位于训练集群中的第一训练节点执行,包括:2.根据权利要求1所述的方法,其中,所述获取对应所述待处理训练数据的目标通信类型包括:3.根据权利要求1所述的方法,其中,所述根据所述目标通信类型确定对应所述目标数据的目标连接包括:4.根据权利要求3所述的方法,其中,所述获取与所述目标通信类型对应的目标连接集合包括:5.根据权利要求1所述的方法,其中,所述根据对应所述目标连接的目标优先级确定目标带宽包括:6.根据权利要求1所述的方法,还包括,7.一种模型训练时的节点通信装置,位于训练集群中的第一训练节点,包括:8.根据权利要求7所述的装置,其中,所述接收单元在获取对应所述待处理训练数据的目标通信类型时,具体执行:9.根据权利要求7所述的装置,其中,所述处理单元在根据所述目标通信类型确定对应所述目标数据的目标连接时,具体执行:10.根据权利要求9所述的装置,其中,所述处理单元在获取与所述目标通信类型对应的目标连接集合时,具体执行:11.根据权利要求7所述的装置,其中,所述通信单元在根据对应所述目标连接的目标优先级确定目标带宽时,具体执行:12.根据权利要求7所述的装置,还包括发送单元,用于执行:13.一种电子设备,包括:14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。技术总结本公开提供一种模型训练时的节点通信方法、装置、电子设备与可读存储介质,涉及大语言模型、机器学习、云服务、大数据等人工智能技术领域。其中,模型训练时的节点通信方法包括:位于训练集群中的第一训练节点接收待处理训练数据,获取对应所述待处理训练数据的目标通信类型;通过待训练模型对所述待处理训练数据进行处理,得到目标数据,根据所述目标通信类型确定对应所述目标数据的目标连接;根据对应所述目标连接的目标优先级确定目标带宽,通过通信硬件使用所述目标带宽将所述目标数据从所述第一训练节点发送到对应所述目标连接的目标第二训练节点。本公开通过对模型训练过程中节点之间的通信过程进行优化,从而提升模型的训练效率。技术研发人员:李兆耕,李书坤,田戈骁,于佃海,王雁鹏受保护的技术使用者:北京百度网讯科技有限公司技术研发日:技术公布日:2024/8/16