许可优化
许可优化
产品
产品
解决方案
解决方案
服务支持
服务支持
关于
关于
软件库
当前位置:服务支持 >  软件文章 >  Dyna:结合模型学习与直接强化学习

Dyna:结合模型学习与直接强化学习

阅读数 20
点赞 0
article_banner

model_free的算法可以和 模型学习 结合。

   方法是向环境(environment)传递了 S ,A后获得反馈S_,R,保存这个关系,记为

   S_,R = Model(S, A),如此多次就学习了model的一部分,就像是有了对外界环境的想象,如此就可以在不接触外界环境的情况下进行学习。

Q-learning 和模型学习结合就是 Tabular   Dyna-Q方法:

Initialize Q(s,a)Q(s,a) and Model(s,a)∀s∈S and a∈A(s)Model(s,a)∀s∈S and a∈A(s)

   Do forever(for each episode):

     (a) S←S← current (nonterminal) state

     (b) A←ϵ−greedy(S,Q)A←ϵ−greedy(S,Q)

     (c) Execute action AA; observe resultant reward, RR, and state, S′S′

     (d) Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]

     (e) Model(S,A)←R,S′Model(S,A)←R,S′ (assuming deterministic environment)

     (f) Repeat n times:

      S←S← random previously observed state

      A←A← random action previously taken in SS

      R,S′←Model(S,A)R,S′←Model(S,A)

      Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]


免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

相关文章
技术文档
QR Code
微信扫一扫,欢迎咨询~
customer

online

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 board-phone 155-2731-8020
close1
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

姓名不为空

姓名不为空
手机不正确

手机不正确

手机不正确
公司不为空

公司不为空

公司不为空