一种基于自动机器学习的材料性能预测方法

发布日期：2024-08-22 浏览次数：次

本发明涉及材料性能预测与机器学习领域，特别是涉及一种基于自动机器学习的材料性能预测方法。背景技术：1、随着人工智能、数据挖掘、机器学习以及大数据等科技的迅猛发展，一种新的研发模式——数据驱动的策略，正在逐步崭露头角。其展示了在揭示未知材料特性和探索未开发潜力材料方面的巨大潜力。数据驱动策略利用大规模数据集和机器学习算法，可以更有效地分析材料特性，发现材料之间的关联性和规律性。通过对海量数据的深入挖掘，研究人员可以快速识别出具有潜力的新材料，加速材料研发的进程。这种方法不仅能够降低研发成本，还能够缩短研发周期，为新材料的发现和应用提供了全新的途径。2、机器学习技术进行材料性能预测的过程中，在选择合适的模型、超参数设置以及特征工程等方面的决策对于模型的性能至关重要。但是，这些决策往往需要研究人员对机器学习技术有深入地了解，具有一定的经验，并耗费大量时间进行实验，且机器学习建模过程中并没有统一的最佳实践。技术实现思路1、本发明的目的是提供一种基于自动机器学习的材料性能预测方法，可实现材料性能预测模型的自动构建和超参数的优化，减小了材料性能研究过程中模型构建的复杂性，并提升了材料性能研究过程中材料性能预测的精度。2、为实现上述目的，本发明提供了如下方案：3、一种基于自动机器学习的材料性能预测方法，包括：4、获取钢材料数据，并将所述钢材料数据作为样本构建目标数据集；所述钢材料数据包括钢材料的工艺参数、组分参数和性能参数；5、构建目标数据集的元特征；所述元特征包括：目标数据集中的样本数量、特征数量、各个特征峰度的均值、特征峰度的最大值、特征峰度的最小值，各个特征峰度的标准差，各个特征偏度的均值、特征偏度的最大值、特征偏度的最小值和各个特征偏度的标准差；6、根据目标数据集的元特征，构建初始种群；所述初始种群中的个体为不同的机器学习管道，所述机器学习管道包括依次连接的特征预处理模块、特征选择模块和回归模块；7、以训练好的个体的预测准确性为适应度，基于所述初始种群采用遗传算法进行迭代优化，获取适应度最优的训练好的个体作为材料性能预测模型；训练好的个体采用所述目标数据集对种群中的个体进行训练获得；8、基于所述材料性能预测模型对钢材料的性能进行预测。9、可选的，特征峰度的计算公式为：10、11、其中，kj为第j个特征峰度，xi,j为第i个样本的第j个特征的取值、n为样本的数量，为第j个特征的均值。12、可选的，特征偏度的计算公式为：13、14、其中，sj为第j个特征偏度，xi,j为第i个样本的第j个特征的取值、n为样本的数量，为第j个特征的均值，σj为所有样本的第j个特征的标准差。15、可选的，根据目标数据集的元特征，构建初始种群，具体包括：16、通过openml获取多个公开数据集；17、分别利用每个公开数据集训练获得一个机器学习模型；18、根据每个公开数据集的元特征和所述目标数据集的元特征，采用k近临算法选取与元特征与所述目标数据集的元特征近临的预设个数的公开数据集训练获得的机器学习模型，组成初始种群。19、可选的，采用所述目标数据集对种群中的个体进行训练的过程中采用cma-es算法分布式异步并发地优化个体所表征的机器学习管道的超参数。20、可选的，采用cma-es算法分布式异步并发地优化个体所表征的机器学习管道的超参数的具体步骤包括：21、利用如下公式，确定第t+1次训练的cma-es算法的均值参数；22、23、其中，mt+1表示第t+1次训练的cma-es算法的均值参数，mt表示第t次训练的cma-es算法的均值参数，表示第t-du次训练的cma-es算法的均值参数，表示本次均值更新所使用的超参数的序号集合，为产生了延迟的超参数序号集合，u为由于异步并发导致延迟的超参数序号，延迟因不同的超参数所需计算时间不同以及操作系统的进程调度产生，du为产生延迟的超参数u延迟的代数，式中第二项表示对延迟进行的补偿，u*为没有延迟的超参数序号集合；π()为按照训练得到的超参数对应的机器学习管道的准确度从大到小的排序，表示排序越靠后的超参数重要性越小；表示中间函数，xu,t表示在第t次训练过程中采样中序号为u的机器学习管道的超参数，表示在第t-du次训练过程中采样得到的序号为u的机器学习管道的超参数；表示在第t-du'次训练过程中采样得到的序号为u'的机器学习管道的超参数，u'为没有延迟的超参数序号。24、利用第t+1次训练的cma-es算法的均值，构建概率密度函数为：25、26、其中，ei(x)为概率密度函数，x为机器学习管道的超参数，α为函数参数，设置为0.8，h(x)＝n(mt,σt2ct)为cma-es算法中的采样分布函数，σt为cma-es算法中第t次训练的步长，ct为cma-es算法中第t次训练的协方差矩阵，n为正态分布；xm,t为第t次训练的正样本，属于按照训练得到的超参数对应的机器学习管道的准确度从大到小的排序得到的超参数序列中的前m个超参数的集合，m为正样本数量，kh()表示核函数带宽为h的高斯核；xn,t为第t次训练的负样本，属于按照训练得到的超参数对应的机器学习管道的准确度从大到小的排序得到的超参数序列中的后n个超参数的集合，n为负样本数量；27、对概率密度函数采样得到第t+1次训练的个体所表征的机器学习管道的超参数。28、可选的，基于所述初始种群采用遗传算法进行迭代优化的过程中种群更新的步骤包括：29、在当前种群中选取个体序列中的前10％的个体加入下一次迭代的种群中；所述个体序列采用按照适应度从大到小的顺序对当前种群中的个体进行排序获得；30、在当前种群随机选取3个个体，在3个个体中选取适应度较大的两个个体作为候选个体，在两个候选个体中选取算子较小的个体加入下一代的种群中；31、对下一代的种群中已有的个体进行交叉和变异，得到下一代的种群的所有个体。32、可选的，所述变异包括替换变异、新增变异和删除变异。33、一种基于任务链自动机器学习材料性能预测方法，所述基于任务链自动机器学习材料性能预测方法包括如下步骤：34、根据需要预测的目标性能的重要程度构建任务链；35、采用上述的基于自动机器学习的材料性能预测方法，构建用于预测任务链中第1个目标性能的材料性能预测模型；36、以用于预测任务链中第m个目标性能的材料性能预测模型的输出作为用于预测任务链中第m+1个目标性能的材料性能预测模型的一个输入，采用上述的基于自动机器学习的材料性能预测方法，构建用于预测任务链中第m+1个目标性能的材料性能预测模型；37、基于用于预测任务链中每个目标性能的材料性能预测模型进行钢材料的每个目标性能的预测。38、根据本发明提供的具体实施例，本发明公开了以下技术效果：39、本发明实施例提供一种基于自动机器学习的材料性能预测方法，所述基于自动机器学习的材料性能预测方法包括：获取钢材料数据，并将所述钢材料数据作为样本构建目标数据集；构建目标数据集的元特征；根据目标数据集的元特征，构建初始种群；所述初始种群中的个体为不同的机器学习管道；以训练好的个体的预测准确性为适应度，基于所述初始种群采用遗传算法进行迭代优化，获取适应度最优的训练好的个体作为材料性能预测模型；训练好的个体采用所述目标数据集对种群中的个体进行训练获得；基于所述材料性能预测模型对钢材料的性能进行预测。本发明实施例基于自动机器学习方法实现模型的自动选择和超参数的自动优化，减小了材料性能研究过程中模型构建的复杂性，并提升了材料性能研究过程中材料性能预测的精度。