基于深度强化学习的人体增强反馈方案动态决策_中国专利数据库
全国客户服务热线:4006-054-001 疑难解答:159-9855-7370(7X24受理投诉、建议、合作、售前咨询),173-0411-9111(售前),155-4267-2990(售前),座机/传真:0411-83767788(售后),微信咨询:543646
企业服务导航

基于深度强化学习的人体增强反馈方案动态决策

发布日期:2024-09-01 浏览次数: 专利申请、商标注册、软件著作权、资质办理快速响应热线:4006-054-001 微信:15998557370


基于深度强化学习的人体增强反馈方案动态决策
申请号: 申请日:
公开(公告)号: 公开(公告)日:
发明(设计)人: 申请(专利权)人:
主分类号: 分类号:
代理公司: 代理人:
地址: 国省代码:
权利要求书: 说明书:
微信咨询: 添加微信:543646或【点此在线咨询 文件下载: 【点此下载】请正确填写本页网址和接收邮箱
摘要: 本发明涉及深度学习,特别是涉及一种基于深度强化学习的人体增强反馈方案动态决策方法。、在诸多体育运动中,网球作为一项兼具竞技性、安全性、社交性的体育运动,网球击球动作需要球员在极短时间内,充分协调人体各部位的空间姿态与发力顺序,科学的动作指导能够较快提升训练者的水平,不合理的训练方式不仅耗费...
相关服务: 软件产品登记测试全国受理 软件著作权666元代写全部资料全国受理 实用新型专利1875代写全部资料全国受理

本发明涉及深度学习,特别是涉及一种基于深度强化学习的人体增强反馈方案动态决策方法。背景技术:1、在诸多体育运动中,网球作为一项兼具竞技性、安全性、社交性的体育运动,网球击球动作需要球员在极短时间内,充分协调人体各部位的空间姿态与发力顺序,科学的动作指导能够较快提升训练者的水平,不合理的训练方式不仅耗费时间,还会使训练者养成不良的习惯,甚至造成运动损伤。为了更好地实现自主训练,多种网球训练装置不断兴起,例如:网球自动发球机、网球对打装置以及网球对打机器人等。研究者们发现由人体中多种感觉器官反馈得到的感觉信息的高效组合有利于提高表现、记忆和学习任务的感知和认知能力,增强训练效果。研究者们通常在训练过程中利用视觉或触觉在宏观上进行错误动作的提示和正确动作的引导,以增强训练效率。2、现有网球训练方法虽有考虑人体多种感觉信息,但难以充分利用智能化手段(如深度强化学习)赋能训练装置,训练装置智能性较差,大多数只可以进行固定模式的发球,没有统筹兼顾学习过程中感觉信息的多样性和认知负荷分配的合理性,且对运动信息缺乏充分合理利用,并非动态实时调整错误动作反馈与纠错提示方案,无法依据训练者的训练效果实时调整各种感觉反馈装置的参数,导致训练装置智能化较低,灵活性较差,对感觉反馈利用度较低,难以依据不同训练者的特点更改感觉反馈模式,提供有效的感觉信息。技术实现思路1、针对现有的网球训练方法及装置存在的上述问题,本发明提供一种基于深度强化学习的人体增强反馈方案动态决策方法。2、为解决上述问题,本发明采取如下的技术方案:3、一种基于深度强化学习的人体增强反馈方案动态决策方法,所述方法用于网球训练装置,所述网球训练装置包括提示灯带、电刺激装置、机械辅助装置和数字化动作指导软件平台;所述提示灯带反映运动链中人体各部位发力时机与理想时机的偏差;佩戴在训练者身上预设位置的电刺激装置提示错误动作部位和错误严重程度;佩戴在训练者肘部和腕部上的机械辅助装置纠正细微错误姿态;所述数字化动作指导软件平台通过界面显示优化动作与现实动作动画并标记身体各部位发力程度与理想发力程度的偏差,同时还显示人体动作运动链图谱,用于展示实际速度与理想速度的偏差;4、将所述网球训练装置的控制过程建模为马尔科夫决策过程,并利用深度确定性策略梯度算法训练所述网球训练装置的控制策略,具体包括以下步骤:5、步骤1:在训练者开始击球时采集训练者各关节运动数据的观测值,网球训练装置采取行动,并且接收标量奖励,当t时刻控制完成时,采集训练者新的状态,得到一个转换元组,重复上述过程,产生序列,得到若干个转换元组,并将全部的转换元组作为样本存储到重播缓冲区中,同时定义状态得到的回报为总回报,其中为折扣系数;6、步骤2:在深度确定性策略梯度算法中构建四个深度神经网络,以生成在连续空间下最优的动作策略网络和动作-价值评价网络,其中,和分别为actor网络和critic网络的参数,每个网络都有其对应的目标网络:、,和分别为目标网络的参数;critic网络通过估计智能体在状态下执行动作的期望收益对actor网络进行监督,以确保得到执行该动作可以得到的回报最大,在确定性策略下,将期望收益写成递归bellman方程:7、               (3);8、其中,[ ]表示在t时刻状态和动作分别为和的条件下,t+1时刻状态为的条件下的价值函数期望值;9、通过q-learning算法训练动作-价值评价网络,并通过最小化loss函数来更新网络参数:10、                    (4);11、其中,为损失函数,为目标网络函数,为价值网络函数,为目标网络函数与价值网络函数差值平方的均值;12、目标网络函数定义为:13、y(τ;θq',θπ')=rt+γq(st+1,μ(st+1,θπ');θq')]                (5);14、为使最小,通过批量随机梯度下降的方法更新参数:15、                          (6);16、其中,是损失函数关于参数的导数,为评价网络的学习率;17、动作策略网络参数使用策略梯度通过梯度下降进行更新:18、                           (7);19、其中,为动作策略网络的学习率;20、在学习过程中,每次训练通过在重播缓冲区中选取包含的样本进行计算,引入学习权重,将目标网络参数和原始网络参数做加权平均,然后赋值给新的目标网络的参数和,完成更新:21、                           (8);22、其中,代表参数和,为学习权重;23、随机生成初始动作策略网络和评价网络,动作策略网络根据当前的状态和行为噪声选择相应的动作,智能体执行动作后可获取奖励,评估后将该转换元组存储在缓冲区中,然后使用和对网络参数进行更新,其中奖励函数定义为:24、                         (9);25、其中,为依据运动理论计算得到的训练者理论最大击球速度,为训练者实际最大击球速度。26、本发明的有益效果为:27、(1)本发明将采用多感官融合的感觉反馈方法与网球训练装置融合,实现了网球训练装置的智能化与科学化;28、(2)本发明的方法合理有效结合训练过程人体运动数据,驱动智能体实现多感官反馈交互模式的动态匹配,能够根据训练者的训练效果实现网球训练装置的实时反馈方案动态决策,实时性更强;29、(3)本发明解决了传统感觉反馈训练中缺少考虑训练者认知能力的反馈类别个性化组合、缺乏融合实时运动数据动态调整训练方案的问题。

基于深度强化学习的人体增强反馈方案动态决策