许可优化
许可优化
产品
产品
解决方案
解决方案
服务支持
服务支持
关于
关于
软件库
当前位置:服务支持 >  软件文章 >  强化学习基础:Model-Free、Planning、Model-Based与Dyna方法总结

强化学习基础:Model-Free、Planning、Model-Based与Dyna方法总结

阅读数 22
点赞 0
article_banner

介绍

前面说的value-base方法(除了动态规划)也好,policy-base的方法也好,都是假设没有模型而直接与实际环境 交互 来学习的,我们把没有用到模型的方法叫做model-free方法,但并不是说value-base和policy-base方法都是model-free的方法,value-base和policy-base是根据方法学习策略的角度划分的,model-base和model-free是根据方法有没有关于model的学习来划分的,两者划分的角度不同,只不过前面在讲value-base和policy-base方法是都是假设没有模型来说的,所以它们也是model-free的方法,下面就讨论下各类型的方法。简要说明下,model-free方法是指没有用到模型,直接与实际环境交互来学习到最优策略;planning是指已经有了模型,然后怎样使用模型来得到最优的策略;model-base是指根据环境中的经验学习模型,然后用这个模型做planning;dyna在model-base的基础上再加上直接的model-free学习。

   下面的很多内容都有蛮大一部分是自己对视频的理解和总结,优缺点后面的括号是对该点为什么存在的解释,可能有很多不对或不准确的地方,如果有不同的看法或者不赞同的意见欢迎指出~

model-free 方法

  • 没有模型,直接与环境交互来学到最优策略
  • 包括之前提到MC/TD方法还有像REINFORCE和Actor-critic
  • 优点
  • 缺点

planning

  • 已经有了环境模型,然后利用模型来得到最优策略
  • 方法分类
  • 优点
  • 缺点

model-base 方法

  • 先学模型,再对学到的模型做planning
    这里写图片描述
  • 优点
  • 缺点 误差来源多了model拟合的误差
  • 个人感觉model-base跟人类学习比较像,之前也提到过人类学习很大的不同是”先验规则+想象+记忆”,人类学习时与环境交互中学到周围环境的表征,也就是模型,planning的过程就相当于在脑海中不断地想象。 先验规则->有一定的正确度的模型 想象->planning

dyna方法

  • model-base learning同时直接model-free leanring,整合所有信息
    这里写图片描述

        一种学习算法,dyna-q:
    这里写图片描述

关于使用sample的forward search方法的理解

forward search + samle相当于用model-free的方法解决一个部分MDP的问题,它所关注的是在当前状态下应该采取什么动作是最好的,而不是关注整个状态空间中应该采取什么 策略 是最优的。
这里写图片描述
这里写图片描述

   它们的过程 类  似于也是在部分MDP问题中采用策略迭代。

   对于蒙特卡罗搜索 :
这里写图片描述

   先是估计一个随机策略的价值函数 (也就是simulation policy),注意的是不管其他状态这个价值函数是否准确,但当前状态上是一定准的,这个部分MDP关注的是当前状态,然后做一次策略提升,也就是greedy的操作选择最好的动作,可以想象新的策略对当前状态来说只是做了一次更新,所以在当前状态上就比simulation policy好一些,如果simulation policy不好的话,那么更新后的策略效果也不会很好因为只做了一次更新,如果simulation policy在当前状态上本来就比较好的话,那么更新后的策略在当前状态上也会更好。所以simulation policy的选择很重要。

   对于蒙特卡罗树搜索 :
这里写图片描述
这里写图片描述
这里写图片描述

   它更像是蒙特卡罗搜索中做策略更新做多几次,selection相当于在做策略提升,而expansion,simulation 和backpropation则是在做策略估计。随着策略迭代的进行,树上的节点的值越来越趋向于当前策略的值函数。

各种机制的总结

感觉各种优缺点写的优点乱,可能把它们分解成各种机制好一些,顺便把之前的一些机制也总结下吧。

  • bootstrap
  • sampling(sample)
  • advantage function
  • function approximation
  • batch gradient descent
  • off-policy
  • fix target
  • forward search
  • model learning

首先先有一些基本的 算法  :动态规划(DP),policy-gradient的公式(PG)

   然后可以看成 :

   MC = DP + sampling (+function approximation)
TD   = DP +sampling + bootstrap (+function approximation)

   MC-PG = PG + sampling

   ActorCritic-PG = PG + sampling + bootstrap + function approximation

   MCTS = forward search + sampling

使用哪一类的方法取决于具体的应用场景,要考虑几个因素:

   1. 有没有真实的环境模型可用

   2. 环境是否在不断变化的

   3. 需不需要一边学一边做决策

   4. 存不存在维数灾难问题

   5. 计算耗时如何

   6. 价值函数是否难得到

   ……

免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

相关文章
技术文档
QR Code
微信扫一扫,欢迎咨询~
customer

online

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 board-phone 155-2731-8020
close1
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

姓名不为空

姓名不为空
手机不正确

手机不正确

手机不正确
公司不为空

公司不为空

公司不为空