用户标识识别方法、装置、电子设备、存储介质_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

用户标识识别方法、装置、电子设备、存储介质

发布日期:2024-08-21 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


用户标识识别方法、装置、电子设备、存储介质
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本申请涉及数据处理,尤其涉及一种用户标识识别方法、装置、电子设备、存储介质及产品。、id(identity)可以用于表示身份标识,而oneid是一种用户唯一标识的解决方案,旨在识别出属于同一个用户的id,并分配唯一性标识,改善用户画像的数据稀疏性问题,提升用户洞察和推荐的效果。目前onei...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本技术涉及数据处理,尤其涉及一种用户标识识别方法、装置、电子设备、存储介质及产品。背景技术:1、id(identity)可以用于表示身份标识,而oneid是一种用户唯一标识的解决方案,旨在识别出属于同一个用户的id,并分配唯一性标识,改善用户画像的数据稀疏性问题,提升用户洞察和推荐的效果。目前oneid的用户识别主要根据id图谱中的数据进行处理。其中,id图谱由表示属于同一个用户的id与id间关联的边组成。这些代表关联的边的来源主要有两类:行为数据和预测数据。前者来自各种业务系统,后者来自不同的算法系统。但是,当前基于id图谱进行用户标识识别时的准确性低下。技术实现思路1、本技术旨在至少解决相关技术中存在的技术问题之一。为此,本技术提出一种用户标识识别方法,可以提高基于id图谱进行用户标识识别时的准确性。2、本技术还提出一种用户标识识别装置、电子设备、存储介质及计算机程序产品。3、根据本技术第一方面实施例的用户标识识别方法,包括:4、基于待处理id图谱构建第一数据集;所述第一数据集包括用户id顶点序号信息、用户id顶点与中心顶点间的第一距离信息以及每一用户id顶点的第一中心顶点序号信息;每一用户id顶点初始的中心顶点为相应用户id顶点;5、确定待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息,以及所述两两用户id顶点间的第二距离信息;所述概率信息通过相关性系数算法确定;所述第二距离信息是基于所述概率信息进行对数运算得到的;6、基于所述第一距离信息与所述第二距离信息确定所述两两用户id顶点间的第三距离信息;7、确定所述两两用户id顶点间的第二中心顶点序号信息;8、将所述第三距离信息中大于预设距离阈值的第三距离剔除,得到第四距离信息;9、基于所述第四距离信息以及所述第二中心顶点序号信息,对所述第一数据集进行信息更新,得到第二数据集;10、若所述第二数据集中所有用户id顶点均满足目标条件,则基于所述第二数据集进行用户标识识别,得到用户标识识别结果;所述用户标识识别结果包括各用户id顶点及其用户所属信息;所述目标条件为用户id顶点的中心顶点为相应用户id顶点,或用户id顶点对应中心顶点的中心顶点为相应用户id顶点的中心顶点。11、根据本技术实施例的用户标识识别方法,在基于待处理id图谱构建第一数据集后,由于根据相关性系数算法确定待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息,可以实现id关联权重的自适应调整;同时,通过由待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息确定的两两用户id顶点间的第二距离信息,结合第一数据集中用户id顶点与中心顶点间的第一距离信息确定出的两两用户id顶点间的第三距离信息,并将第三距离信息中大于预设距离阈值的第三距离剔除,得到第四距离信息,可以排除小概率的关联事件的干扰,进而可以根据第四距离信息与两两用户id顶点间的第二中心顶点序号信息,准确地对第一数据集进行信息更新,并基于更新得到的第二数据集进行用户标识识别得到准确的识别结果,可以提高基于id图谱进行用户标识识别时的准确性。12、根据本技术的一个实施例,所述基于所述第四距离信息以及所述第二中心顶点序号信息,对所述第一数据集进行信息更新,得到第二数据集,包括:13、将所述第二中心顶点序号信息中,数值大于或等于相应两用户id顶点序号中中心顶点之外的用户顶点id的顶点序号的第二中心顶点序号剔除,根据所述第二中心顶点序号信息中剩余的第二中心顶点序号生成第三中心顶点序号信息;14、根据所述第四距离信息与所述第三中心顶点序号信息,对所述第一数据集中的第一距离信息与第一中心顶点序号信息进行信息更新,得到第二数据集。15、根据本技术的一个实施例,在基于所述第四距离信息以及所述第二中心顶点序号信息,对所述第一数据集进行信息更新,得到第二数据集之后,还包括:16、若所述第二数据集中存在任一用户id顶点不满足所述目标条件,则基于所述第二数据集中被更新的各用户id顶点与中心顶点间的第五距离信息,以及所述第二距离信息,确定所述第二数据集中两两被更新用户id顶点间的第六距离信息;17、基于所述第六距离信息中的各第六距离与预设距离阈值的比对,对所述第六距离信息进行信息筛选;18、若筛选后所述第六距离信息为空,则将所述第二数据集中不满足所述目标条件的用户id顶点对应的中心顶点重置为相应用户id顶点,将所述第二数据集中不满足所述目标条件的用户id顶点与相应中心顶点间的第五距离重置为0;19、基于所述第二数据集中重置中心顶点后的用户id顶点及与其具有关联关系的其他用户id顶点之间的第七距离信息与所述第二距离信息,确定所述第二数据集中重置中心顶点后的用户id顶点及与其具有关联关系的其他用户id顶点之间的第八距离信息;20、基于所述第八距离信息以及所述第二数据集中重置中心顶点后的用户id顶点及与其具有关联关系的其他用户id顶点之间的第四中心顶点序号信息,对所述第二数据集进行信息更新,得到第三数据集;21、若所述第三数据集中所有用户id顶点均满足所述目标条件,则基于所述第三数据集进行用户标识识别,得到用户标识识别结果。22、根据本技术的一个实施例,所述确定待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息,包括:23、根据所述待处理id图谱中具有关联关系的两两用户id顶点的顶点序号构建第四数据集;24、根据所述第四数据集中两两用户id顶点的数量结合相关性系数算法,确定两两用户id顶点属于同一用户的概率信息。25、根据本技术的一个实施例,所述基于所述第一距离信息与所述第二距离信息确定所述两两用户id顶点间的第三距离信息,包括:26、将所述第二距离信息中每一第二距离,分别与所述第一距离信息中的相应第一距离进行相加,得到相应数量的第三距离;其中,相应第一距离为与各第二距离对应两用户id顶点中,作为中心顶点的用户id顶点具有相同顶点序号的第一距离;27、基于各第三距离生成所述两两用户id顶点间的第三距离信息。28、根据本技术的一个实施例,所述基于所述第二数据集进行用户标识识别,得到用户标识识别结果,包括:29、将所述第二数据集中,中心顶点相同的用户id顶点划分至同一用户;30、分别为每一用户生成用户信息;31、基于各用户信息与所述第二数据集中的各用户id顶点,生成用户标识识别结果。32、根据本技术第二方面实施例的用户标识识别装置,包括:33、构建模块,用于基于待处理id图谱构建第一数据集;所述第一数据集包括用户id顶点序号信息、用户id顶点与中心顶点间的第一距离信息以及每一用户id顶点的第一中心顶点序号信息;每一用户id顶点初始的中心顶点为相应用户id顶点;34、第一确定模块,用于确定待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息,以及所述两两用户id顶点间的第二距离信息;所述概率信息通过相关性系数算法确定;所述第二距离信息是基于所述概率信息进行对数运算得到的;35、第二确定模块,用于基于所述第一距离信息与所述第二距离信息确定所述两两用户id顶点间的第三距离信息;36、第三确定模块,用于确定所述两两用户id顶点间的第二中心顶点序号信息;37、剔除模块,用于将所述第三距离信息中大于预设距离阈值的第三距离剔除,得到第四距离信息;38、更新模块,用于基于所述第四距离信息以及所述第二中心顶点序号信息,对所述第一数据集进行信息更新,得到第二数据集;39、识别模块,用于若所述第二数据集中所有用户id顶点均满足目标条件,则基于所述第二数据集进行用户标识识别,得到用户标识识别结果;所述用户标识识别结果包括各用户id顶点及其用户所属信息;所述目标条件为用户id顶点的中心顶点为相应用户id顶点,或用户id顶点对应中心顶点的中心顶点为相应用户id顶点的中心顶点。40、根据本技术第三方面实施例的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述用户标识识别方法。41、根据本技术第四方面实施例的存储介质,所述存储介质为非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用户标识识别方法。42、根据本技术第五方面实施例的计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述用户标识识别方法。43、本技术实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:44、在基于待处理id图谱构建第一数据集后,由于根据相关性系数算法确定待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息,可以实现id关联权重的自适应调整;同时,通过由待处理id图谱中具有关联关系的两两用户id顶点属于同一用户的概率信息确定的两两用户id顶点间的第二距离信息,结合第一数据集中用户id顶点与中心顶点间的第一距离信息确定出的两两用户id顶点间的第三距离信息,并将第三距离信息中大于预设距离阈值的第三距离剔除,得到第四距离信息,可以排除小概率的关联事件的干扰,进而可以根据第四距离信息与两两用户id顶点间的第二中心顶点序号信息,准确地对第一数据集进行信息更新,并基于更新得到的第二数据集进行用户标识识别得到准确的识别结果,45、本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

用户标识识别方法、装置、电子设备、存储介质