一种健康数据增值分析方法和装置与流程_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

一种健康数据增值分析方法和装置与流程

发布日期:2024-08-22 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


一种健康数据增值分析方法和装置与流程
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明涉及数据处理,尤其涉及一种健康数据增值分析方法和装置。、数据增值是通过一系列技术手段,将数据进行收集、存储、分析和处理,以挖掘出数据的潜在价值,并转化为实际的经济效益。具体方法包括:数据清洗、数据插补、数据扩充、数据关联、数据聚类重组、数据碰撞和数据挖掘等。、但本申请发明人在实现本申...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明涉及数据处理,尤其涉及一种健康数据增值分析方法和装置。背景技术:1、数据增值是通过一系列技术手段,将数据进行收集、存储、分析和处理,以挖掘出数据的潜在价值,并转化为实际的经济效益。具体方法包括:数据清洗、数据插补、数据扩充、数据关联、数据聚类重组、数据碰撞和数据挖掘等。2、但本技术发明人在实现本技术实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:3、现有技术中的数据增值方法由于存在对数据分布敏感、挖掘数据不够深入和对疾病随时间变化的趋势和预测分析不足等问题,从而导致无法全面了解疾病分布与变化,进而影响预防和治疗策略的制定,造成健康数据价值无法充分释放的技术问题。技术实现思路1、本发明实施例提供了一种健康数据增值分析方法和装置,用以解决现有技术中的数据增值方法由于存在对数据分布敏感、挖掘数据不够深入和对疾病随时间变化的趋势和预测分析不足等问题,从而导致无法全面了解疾病分布与变化,进而影响预防和治疗策略的制定,造成健康数据价值无法充分释放的技术问题。基于n分位、数据挖掘技术和机器学习算法,实现了更准确、更全面、更客观地分析疾病高发年龄段,预测未来患病人数及男女比例,从而了解疾病的未来严重程度,采取相应预防措施,进一步达到了充分发掘健康数据的潜在价值,优化医疗资源的分配,提升医疗服务质量的技术效果。2、鉴于上述问题,提出了本技术实施例以便提供一种健康数据增值分析方法和装置。3、第一方面,本发明提供了一种健康数据增值分析方法,所述方法包括:获得健康数据集与待分析疾病的判定标准,其中,所述健康数据集为历史不同月份的健康数据样本;根据所述待分析疾病的判定标准,从所述健康数据集中筛选出所述待分析疾病的患病人群数据;对所述患病人群数据进行预处理;利用k-means聚类算法,根据所述预处理后的患病人群数据,获得所述患病人群的高发年龄段;根据所述预处理后的患病人群数据,构建第一决策树模型,预测所述待分析疾病的下月患病人数;根据所述预处理后的患病人群数据,构建第二决策树模型,预测所述待分析疾病的下月患病男女比例。4、优选的,所述对所述待分析疾病的患病人群数据进行预处理,包括:对所述待分析疾病的患病人群数据进行缺失值填补处理;对缺失值填补处理后的患病人群数据进行异常值检测处理,筛选出异常值;对所述异常值进行修正,得到所述预处理后的患病人群数据。5、优选的,所述对所述待分析疾病的患病人群数据进行缺失值填补处理,包括:从所述待分析疾病的患病人群数据中,提取疾病指标列、年龄列数据;根据所述疾病指标列、年龄列数据,筛选出所有缺失值;计算所述缺失值所在日的均值,得到第一均值;计算所述缺失值所在周的均值,得到第二均值;计算所述缺失值所在月的均值,得到第三均值;计算所述第一均值、所述第二均值与所述第三均值的平均值,得到所述缺失值的均值;利用所述缺失值的均值填补缺失值,其余列数据采用随机填充方法进行填补。6、优选的,所述对缺失值填补处理后的患病人群数据进行异常值检测处理,筛选出异常值;对所述异常值进行修正,得到所述预处理后的患病人群数据,包括:计算所述疾病指标列、年龄列数据中任意两个相邻数据差值的绝对值;获得第一阈值;判断所述任意两个相邻数据差值的绝对值是否大于所述第一阈值;当所述任意两个相邻数据差值的绝对值大于所述第一阈值,确定当前数据为异常值;计算所述异常值紧邻的十个数据的均值;将所述异常值紧邻的十个数据的均值作为所述异常值的修正值。7、优选的,所述利用k-means聚类算法,根据所述预处理后的患病人群数据,获得所述患病人群的高发年龄段,包括:从所述预处理后的患病人群数据中采集日期字段,获得不同月份的所述患病人群;根据所述不同月份的患病人群,计算所述患病人群中年龄列数据的均值、众数、中位数和四分位数;根据所述患病人群中年龄列数据的均值、众数、中位数和四分位数,确定不同月份所述患病人群所处的年龄段;选取至少3个月份患病人群所处年龄段作为第一簇类质心;计算其余月份患病人群所处年龄段到所述第一簇类质心的距离,其中,距离计算方式为欧式距离:8、9、式中,d为表示第i个样本点(xi,yi)到第j个质心(xj0,yj0)的欧式距离;10、xi代表第i个月患病人群所处年龄段的最小值;11、yi代表第i个月患病人群所处年龄段的最大值;12、xj0代表第j个质心所对应月份患病人群所处年龄段的最小值;13、yj0代表第j个质心所对应月份患病人群所处年龄段的最大值;14、将剩余样本归类到相互距离最小质心的所在簇,计算第二簇类质心;计算各月份患病人群所在年龄段到所述第二簇类质心的距离;迭代计算每个月份患病人群所在年龄段的距离,直至每个月份患病人群所在年龄段的距离划分情况基本不变,得到最优解,返回k-means聚类结果;根据所述k-means聚类结果,选取样本数最多的簇所对应的年龄段作为所述患病人群的高发年龄段。15、优选的,所述根据所述预处理后的患病人群数据,构建第一决策树模型,预测所述待分析疾病的下月患病人数,包括:根据所述预处理后的患病人群数据,获得不同月份的患病人数;从所述预处理后的患病人群数据中,选择不同月份的第一个采集日期作为特征,不同月份患病人数作为目标;将不同月份的第一个采集日期与对应月份患病人数的数据划分为训练数据集和测试数据集;构建所述第一决策树模型;利用所述训练数据集对所述第一决策树模型进行训练,得到训练后的第一决策树模型;将下月的每个采集日期作为特征,输入至所述训练好的第一决策树模型中进行预测,并将下月每个采集日期预测结果的均值作为所述待分析疾病的下月患病人数;其中,所述构建第一决策树模型具体包括:步骤a1:构建根节点,将所有训练数据集均放在所述根节点,作为初始状态;步骤b1:基于信息增益,获得最优特征,并根据所述最优特征,将所述训练数据集分割成若干个子集,其中,所述每个子集对应一个分支,构成当前节点的子节点;步骤c1:重复执行步骤b1,直到每个所述子节点满足停止条件,其中,所述停止条件为所述当前节点的样本属于同一类别,或所述当前节点无样本,或所述当前节点没有合适特征;步骤d1:获得第一决策树,其中,所述每个子节点对应一个类别。步骤e1:利用所述测试数据集,对所述第一决策树进行校验、评估,得到所述第一决策树模型。16、优选的,所述根据所述预处理后的患病人群数据,构建第二决策树模型,预测所述待分析疾病的下月患病男女比例,包括:根据所述预处理后的患病人群数据,获得不同月份患病人群的男女比例;从所述预处理后的患病人群数据中,选择不同月份的第一个采集日期作为特征,不同月份患病人群的男女比例作为目标;将不同月份的第一个采集日期与对应月份患病人群的男女比例数据划分为训练数据集和测试数据集;构建所述第二决策树模型;利用所述训练数据集对所述第二决策树模型进行训练,得到训练后的第二决策树模型;将下月的每个采集日期作为特征,输入至所述训练好的第二决策树模型中进行预测,并将下月每个采集日期预测结果的均值作为所述待分析疾病的下月患病男女比例。其中,所述构建第二决策树模型具体包括:步骤a2:构建根节点,将所有训练数据集均放在所述根节点,作为初始状态;步骤b2:基于信息增益,获得最优特征,并根据所述最优特征,将所述训练数据集分割成若干个子集,其中,所述每个子集对应一个分支,构成当前节点的子节点;步骤c2:重复执行步骤b2,直到每个所述子节点满足停止条件,其中,所述停止条件为所述当前节点的样本属于同一类别,或所述当前节点无样本,或所述当前节点没有合适特征;步骤d2:获得第二决策树,其中,所述每个子节点对应一个类别。步骤e2:利用所述测试数据集,对所述第二决策树进行校验、评估,得到所述第二决策树模型。17、第二方面,本发明提供了一种健康数据增值分析装置,所述装置包括:18、第一获得单元,所述第一获得单元用于获得健康数据集与待分析疾病的判定标准,其中,所述健康数据集为历史不同月份的健康数据样本;19、第一筛选单元,所述第一筛选单元用于根据所述待分析疾病的判定标准,从所述健康数据集中筛选出所述待分析疾病的患病人群数据;20、第一处理单元,所述第一处理单元用于对所述患病人群数据进行预处理;21、第二获得单元,所述第二获得单元用于利用k-means聚类算法,根据所述预处理后的患病人群数据,获得所述患病人群的高发年龄段;22、第一预测单元,所述第一预测单元用于根据所述预处理后的患病人群数据,构建第一决策树模型,预测所述待分析疾病的下月患病人数;23、第二预测单元,所述第二预测单元用于根据所述预处理后的患病人群数据,构建第二决策树模型,预测所述待分析疾病的下月患病男女比例。24、优选的,所述第一处理单元包括:25、第二处理单元,所述第二处理单元用于对所述待分析疾病的患病人群数据进行缺失值填补处理;26、第二筛选单元,所述第二筛选单元用于对缺失值填补处理后的患病人群数据进行异常值检测处理,筛选出异常值;27、第三获得单元,所述第三获得单元用于对所述异常值进行修正,得到所述预处理后的患病人群数据。28、优选的,所述第二处理单元包括:29、第一提取单元,所述第一提取单元用于从所述待分析疾病的患病人群数据中,提取疾病指标列、年龄列数据;30、第三筛选单元,所述第三筛选单元用于根据所述疾病指标列、年龄列数据,筛选出所有缺失值;31、第一计算单元,所述第一计算单元用于计算所述缺失值所在日的均值,得到第一均值;32、第二计算单元,所述第二计算单元用于计算所述缺失值所在周的均值,得到第二均值;33、第三计算单元,所述第三计算单元用于计算所述缺失值所在月的均值,得到第三均值;34、第四计算单元,所述第四计算单元用于计算所述第一均值、所述第二均值与所述第三均值的平均值,得到所述缺失值的均值;35、第一填补单元,所述第一填补单元用于利用所述缺失值的均值填补缺失值,其余列数据采用随机填充方法进行填补。36、优选的,所述第一处理单元还包括:37、第五计算单元,所述第五计算单元用于计算所述疾病指标列、年龄列数据中任意两个相邻数据差值的绝对值;38、第四获得单元,所述第四获得单元用于获得第一阈值;39、第一判断单元,所述第一判断单元用于判断所述任意两个相邻数据差值的绝对值是否大于所述第一阈值;40、第一确定单元,所述第一确定单元用于当所述任意两个相邻数据差值的绝对值大于所述第一阈值,确定当前数据为异常值;41、第六计算单元,所述第六计算单元用于计算所述异常值紧邻的十个数据的均值;42、第一修正单元,所述第一修正单元用于将所述异常值紧邻的十个数据的均值作为所述异常值的修正值。43、优选的,所述第二获得单元包括:44、第五获得单元,所述第五获得单元用于从所述预处理后的患病人群数据中采集日期字段,获得不同月份的所述患病人群;45、第七计算单元,所述第七计算单元用于根据所述不同月份的患病人群,计算所述患病人群中年龄列数据的均值、众数、中位数和四分位数;46、第二确定单元,所述第二确定单元用于根据所述患病人群中年龄列数据的均值、众数、中位数和四分位数,确定不同月份所述患病人群所处的年龄段;47、第一选取单元,所述第一选取单元用于选取至少3个月份患病人群所处年龄段作为第一簇类质心;48、第八计算单元,所述第八计算单元用于计算其余月份患病人群所处年龄段到所述第一簇类质心的距离,其中,距离计算方式为欧式距离:49、50、式中,d为表示第i个样本点(xi,yi)到第j个质心(xj0,yj0)的欧式距离;51、xi代表第i个月患病人群所处年龄段的最小值;52、yi代表第i个月患病人群所处年龄段的最大值;53、xj0代表第j个质心所对应月份患病人群所处年龄段的最小值;54、yj0代表第j个质心所对应月份患病人群所处年龄段的最大值;55、第九计算单元,所述第九计算单元用于将剩余样本归类到相互距离最小质心的所在簇,计算第二簇类质心;56、第十计算单元,所述第十计算单元用于计算各月份患病人群所在年龄段到所述第二簇类质心的距离;57、第一返回单元,所述第一返回单元用于迭代计算每个月份患病人群所在年龄段的距离,直至每个月份患病人群所在年龄段的距离划分情况基本不变,得到最优解,返回k-means聚类结果;58、第二选取单元,所述第二选取单元用于根据所述k-means聚类结果,选取样本数最多的簇所对应的年龄段作为所述患病人群的高发年龄段。59、优选的,所述第一预测单元包括:60、第六获得单元,所述第六获得单元用于根据所述预处理后的患病人群数据,获得不同月份的患病人数;61、第一选择单元,所述第一选择单元用于从所述预处理后的患病人群数据中,选择不同月份的第一个采集日期作为特征,不同月份患病人数作为目标;62、第一划分单元,所述第一划分单元用于将不同月份的第一个采集日期与对应月份患病人数的数据划分为训练数据集和测试数据集;63、第一构建单元,所述第一构建单元用于构建所述第一决策树模型;64、第七获得单元,所述第七获得单元用于利用所述训练数据集对所述第一决策树模型进行训练,得到训练后的第一决策树模型;65、第三预测单元,所述第三预测单元用于将下月的每个采集日期作为特征,输入至所述训练好的第一决策树模型中进行预测,并将下月每个采集日期预测结果的均值作为所述待分析疾病的下月患病人数;66、其中,所述构建第一决策树模型具体包括:67、步骤a1:构建根节点,将所有训练数据集均放在所述根节点,作为初始状态;68、步骤b1:基于信息增益,获得最优特征,并根据所述最优特征,将所述训练数据集分割成若干个子集,其中,所述每个子集对应一个分支,构成当前节点的子节点;69、步骤c1:重复执行步骤b1,直到每个所述子节点满足停止条件,其中,所述停止条件为所述当前节点的样本属于同一类别,或所述当前节点无样本,或所述当前节点没有合适特征;70、步骤d1:获得第一决策树,其中,所述每个子节点对应一个类别。71、步骤e1:利用所述测试数据集,对所述第一决策树进行校验、评估,得到所述第一决策树模型。72、优选的,所述第二预测单元包括:73、第八获得单元,所述第八获得单元用于根据所述预处理后的患病人群数据,获得不同月份患病人群的男女比例;74、第二选择单元,所述第二选择单元用于从所述预处理后的患病人群数据中,选择不同月份的第一个采集日期作为特征,不同月份患病人群的男女比例作为目标;75、第二划分单元,所述第二划分单元用于将不同月份的第一个采集日期与对应月份患病人群的男女比例数据划分为训练数据集和测试数据集;76、第二构建单元,所述第二构建单元用于构建所述第二决策树模型;77、第九获得单元,所述第九获得单元用于利用所述训练数据集对所述第二决策树模型进行训练,得到训练后的第二决策树模型;78、第四预测单元,所述第四预测单元用于将下月的每个采集日期作为特征,输入至所述训练好的第二决策树模型中进行预测,并将下月每个采集日期预测结果的均值作为所述待分析疾病的下月患病男女比例。79、其中,所述构建第二决策树模型具体包括:80、步骤a2:构建根节点,将所有训练数据集均放在所述根节点,作为初始状态;81、步骤b2:基于信息增益,获得最优特征,并根据所述最优特征,将所述训练数据集分割成若干个子集,其中,所述每个子集对应一个分支,构成当前节点的子节点;82、步骤c2:重复执行步骤b2,直到每个所述子节点满足停止条件,其中,所述停止条件为所述当前节点的样本属于同一类别,或所述当前节点无样本,或所述当前节点没有合适特征;83、步骤d2:获得第二决策树,其中,所述每个子节点对应一个类别。84、步骤e2:利用所述测试数据集,对所述第二决策树进行校验、评估,得到所述第二决策树模型。85、第三方面,本发明提供了一种健康数据增值分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:86、获得健康数据集与待分析疾病的判定标准,其中,所述健康数据集为历史不同月份的健康数据样本;根据所述待分析疾病的判定标准,从所述健康数据集中筛选出所述待分析疾病的患病人群数据;对所述患病人群数据进行预处理;利用k-means聚类算法,根据所述预处理后的患病人群数据,获得所述患病人群的高发年龄段;根据所述预处理后的患病人群数据,构建第一决策树模型,预测所述待分析疾病的下月患病人数;根据所述预处理后的患病人群数据,构建第二决策树模型,预测所述待分析疾病的下月患病男女比例。87、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:88、获得健康数据集与待分析疾病的判定标准,其中,所述健康数据集为历史不同月份的健康数据样本;根据所述待分析疾病的判定标准,从所述健康数据集中筛选出所述待分析疾病的患病人群数据;对所述患病人群数据进行预处理;利用k-means聚类算法,根据所述预处理后的患病人群数据,获得所述患病人群的高发年龄段;根据所述预处理后的患病人群数据,构建第一决策树模型,预测所述待分析疾病的下月患病人数;根据所述预处理后的患病人群数据,构建第二决策树模型,预测所述待分析疾病的下月患病男女比例。89、本技术实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:90、本发明实施例提供的一种健康数据增值分析方法和装置,所述方法包括:获得健康数据集与待分析疾病的判定标准,其中,所述健康数据集为历史不同月份的健康数据样本;根据所述待分析疾病的判定标准,从所述健康数据集中筛选出所述待分析疾病的患病人群数据;对所述患病人群数据进行预处理;利用k-means聚类算法,根据所述预处理后的患病人群数据,获得所述患病人群的高发年龄段;根据所述预处理后的患病人群数据,构建第一决策树模型,预测所述待分析疾病的下月患病人数;根据所述预处理后的患病人群数据,构建第二决策树模型,预测所述待分析疾病的下月患病男女比例。用以解决现有技术中的数据增值方法由于存在对数据分布敏感、挖掘数据不够深入和对疾病随时间变化的趋势和预测分析不足等问题,从而导致无法全面了解疾病分布与变化,进而影响预防和治疗策略的制定,造成健康数据价值无法充分释放的技术问题。基于n分位、数据挖掘技术和机器学习算法,实现了更准确、更全面、更客观地分析疾病高发年龄段,预测未来患病人数及男女比例,从而了解疾病的未来严重程度,采取相应预防措施,进一步达到了充分发掘健康数据的潜在价值,优化医疗资源的分配,提升医疗服务质量的技术效果。91、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

一种健康数据增值分析方法和装置与流程