基于近似模型多步优化的清洁机器人最优路径规划方法
持有单位: 个人
地区: 北京市东城区
发布时间: 2024-03-15
截止时间: 2024-11-28
专业领域:
先进制造与自动化先进程度:
国内先进技术成熟度:
三级、技术概念和应用设想通过可行性论证技术关键词:
控制.调节
系统评分: 0分
成果概述
本发明公开了一种基于近似模型多步优化的清洁机器人最优路径规划方法,包括初始化模型、超参数、环境,选择探索策略并以当前样本更新模型,更新值函数、策略和当前状态,判断当前情节是否结束进而利用当前采样轨迹更新轨迹池,利用重构采样轨迹更新轨迹池,然后由轨迹池中所有轨迹来更新模型,采用模型进行规划,判断是否达到最大情节数,最后根据学习到最优策略来来获取清洁机器人规划的最优路径。本发明通过采用采样轨迹和单个样本同时对模型进行更新,提高模型学习的精度,同时利用该模型进行规划,提高值函数、策略和整个算法的学习速度,同时提高样本的利用效率,实现在更短的时间内采用更少的样本来获得清洁机器人进行规划的最优路径。
应用场景
一种基于近似模型多步优化的清洁机器人最优路径规划方法,其特征在于,包括一下步骤:
步骤1)、初始化模型,设置环境的状态空间X和动作空间U;
步骤2)、初始化超参数,设置折扣率γ,衰减因子λ,情节数,高斯函数的探索方差,每个情节所包含的最大时间步,值函数的学习率,策略的学习率,模型的学习率,规划的次数;
步骤3)、初始化环境,设置机器人的当前状态x和边界位置,以及环境中所有的障碍物和垃圾位置;
步骤4)、选择探索策略:选择高斯函数N(u,σ)作为动作选择策略,即以当前最优动作u作为高斯函数的均值,以探索项作为高斯函数的方差,选择当前状态下清洁机器人执行的动作u;
步骤5)、获取当前样本:在当前状态x下,执行步骤(4)中确定的动作u,得到清洁机器人的下一个状态x',立即奖赏r;
步骤6)、采用当前样本更新模型:更新近似模型中的状态迁移函数和奖赏函数参数向量;
步骤7)、更新值函数:更新值函数的参数向量;
步骤8)、更新策略:更新策略的参数向量;
步骤9)、更新采样轨迹:将当前样本(x,u,x',r)加入当前采样路径中(x,u,x',r),(x,u,x',r),...,(x,u,x',r);
步骤10)、更新当前状态:x=x';
步骤11)、判断当前情节是否结束:如果结束,转入步骤12),否则转入步骤4);
步骤12)、利用当前采样轨迹更新轨迹池:将当前采样轨迹(x,u,x',r),(x,u,x',r),...,(x,u,x',r)加入到轨迹池D中:
步骤13)、利用重构采样轨迹更新轨迹池:利用当前采样轨迹构建模拟轨迹(x,u,x',r),(x,u,x',r),...,(x,u,x',r),并重构该轨迹,将重构的轨迹(x',u,x,r),(x',u,x,r),...,(x',u,x,r)加入到轨迹池D中;
步骤14)、采用轨迹池中所有轨迹来更新模型;
步骤15)、采用模型进行规划;
步骤16)、判断是否达到最大情节数:如果达到,转入步骤17),否则转入步骤3)继续执行;
步骤17)、根据学习到的最优策略来来获取清洁机器人规划的最优路径。