格发软件

首页

许可优化

产品

解决方案

服务支持

关于

在线咨询

申请试用

QR-code-company

155-2731-8020

QR-code-self

许可优化

CAD设计软件
CAE仿真软件
PLM产品周期软件
Adobe全家桶

产品

projectHover_1

许可分析

实现专业软件许可精细化管理

projectHover_2

AI分析

让数据分析更简单，决策更智能

projectHover_3

许可调配

合理管控调配许可资源

终端软件管理

终端软件管理和合规性管理共同保障终端安全

多角度管控软件使用权限，保证软件安全性

实用、强大的资产台账管理工具

行业分类

船舶行业

船舶行业

船舶行业

网络行业

网络行业

网络行业

半导体行业

半导体行业

半导体行业

半导体行业

医疗行业

医疗行业

医疗行业

军工行业

军工行业

军工行业

服务支持

服务保障

服务保障

服务保障

软件文章

软件文章

软件文章

产品教程

产品教程

产品教程

技术文档

技术文档

技术文档

关于

关于我们

关于我们

关于我们

试用产品

试用产品

试用产品

合作伙伴

合作伙伴

合作伙伴

品牌标志

品牌标志

品牌标志

apextopmenu

许可优化

许可优化

产品

解决方案

解决方案

服务支持

服务支持

关于

软件

Autocad

二维三维设计绘图软件

Solidworks

三维机械设计建模软件

jiantou

CATIA

高端三维设计制造软件

jiantou

NXUG

集成设计仿真制造平台

jiantou

Alias

曲面造型工业设计软件

jiantou

Altium Designer

Altium Designer

电子电路设计EDA工具

jiantou

Cadence

芯片系统设计EDA平台

jiantou

Matlab

科学计算仿真编程软件

jiantou

Eplan

电气工程设计管理软件

jiantou

NAPA

船舶设计分析软件

jiantou

Ansys

工程仿真分析软件

jiantou

Hyperworks

多学科CAE平台

jiantou

Adams

多体动力学仿真软件

jiantou

Abaqus

有限元分析软件

jiantou

Masta

轴系零部件强度校核软件

jiantou

Hypermill

数控加工编程CAM软件

jiantou

Ansa

有限元前处理软件

jiantou

StarCCM+

流体仿真分析软件

jiantou

Autoform

冲压成形仿真软件

jiantou

ls-dyna

显式动力学仿真软件

jiantou

3DEXPERIENCE

达索协同设计平台

jiantou

Teamcenter

产品生命周期管理软件

jiantou

Windchill

产品数据管理软件

jiantou

Systemweaver

系统工程协作平台

jiantou

Photoshop

图像处理设计软件

jiantou

Illustrator

矢量图形设计软件

jiantou

产品

许可分析

实现专业软件许可精细化管理

jiantou

AI分析

智能分析许可数据，提升使用效率

jiantou

许可调配

合理管控调配许可资源

jiantou

终端软件管理

终端软件管理

终端软件管理和合规性管理共同保障终端安全

jiantou

软件商店

多角度管控软件使用权限，保证软件安全性

jiantou

资产台账

实用、强大的资产台账管理工具

jiantou

解决方案

解决方案

汽车行业

jiantou

船舶行业

jiantou

网络行业

jiantou

半导体行业

半导体行业

jiantou

医疗行业

jiantou

军工行业

jiantou

服务支持

服务支持

服务保障

jiantou

软件文章

jiantou

产品教程

jiantou

技术文档

jiantou

关于

关于我们

jiantou

试用产品

jiantou

合作伙伴

jiantou

品牌标志

jiantou

当前位置：服务支持 > 软件文章 > Tabular Dyna-Q算法实现（8.1）

Tabular Dyna-Q算法实现（8.1）

阅读数 410

点赞 0

copyright

article_banner

算法伪代码：

在这里插入图片描述

使用 maze 环境：maze_env 的代码见这里

import numpy as np
import pandas as pd
from maze_env import Maze
import random


class Q(object):
    def __init__(self, action_space):
        self.nA = action_space
        self.actions = list(range(action_space))

        self.q_table = pd.DataFrame(columns=self.actions)
        self.init_Q()

    def init_Q(self):
    	# 对所有的状态以及动作进行初始化
        for x in range(5, 165, 40):
            for y in range(5, 165, 40):
                if x == 45 and y == 85:
                    s = 'terminal'
                elif x == 85 and y == 45:
                    s = 'terminal'
                elif x == 85 and y == 85:
                    s = 'terminal'
                else:
                    s = [x+0.0, y+0.0, x + 30.0, y + 30.0]
                    s = str(s)
                if s not in self.q_table.index:
                    self.q_table = self.q_table.append(
                        pd.Series([0] * len(self.actions),
                                  index=self.q_table.columns,
                                  name=s)
                    )

    def target_policy(self, s):
        # target_policy is the greedy policy
        # self.check_state_exist(s)
        A = self.target_policy_probs(s)
        return np.random.choice(range(self.nA), p=A)

    def target_policy_probs(self, s, epsilon=.3):
        A = np.ones(self.nA, dtype=float) * epsilon / self.nA
        best_action = np.argmax(self.q_table.loc[s, :])
        A[best_action] += (1.0 - epsilon)
        return A


class Model(object):
    def __init__(self):
        self.model = dict()

    def store(self, s, a, r, s_):
        self.model[s, a] = [r, s_]


if __name__ == '__main__':
    env = Maze()
    action_space = env.n_actions
    RL = Q(action_space)
    model = Model()

    gamma = 0.9
    alpha = 0.01
    n_times = 4

    for episode in range(100):
        state = env.reset()

        while True:
            env.render()
            action = RL.target_policy(str(state))
            state_, reward, done = env.step(action)

            G = reward + gamma * np.max(RL.q_table.loc[str(state_), :])
            RL.q_table.loc[str(state), action] += alpha * (G - RL.q_table.loc[str(state), action])

            model.store(str(state), action, reward, str(state_))

            for i in range(n_times):
                S_A = random.choice(list(model.model.keys()))
                S_A = list(S_A)
                S = S_A[0]
                A = S_A[1]
                R, S_ = model.model[S, A]
                G = R + gamma * np.max(RL.q_table.loc[S_, :])
                RL.q_table.loc[S, A] += alpha * (G - RL.q_table.loc[S, A])

            if done:
                break

            state = state_

    print('game over')
    env.destroy()


免责声明：本文系网络转载或改编，未找到原创作者，版权归原作者所有。如涉及版权，请联系删

返回上级列表

，获取更多内容

GitHub下载DynaSLAM编译常见问题：对‘main’未定义引用解决

【学习记录】DynaSLAM源码修改：替换Mask R-CNN为YOLOv5

相关文章

动手学强化学习第六章：Dyna-Q算法详解

Deep Dyna-Q读书笔记

81个人脸关键点检测算法与实现

回映算法实现Chanboche非线性硬化本构

OpenGL实现大眼瘦脸算法：实时人脸变形效果

e值的Monte Carlo法估计：数值计算与实现

Go语言几何算法实现：向量运算与图形相交检测

软件许可智能调度：用量预测算法+遗传算法实现分时复用案例

树莓派控制无人机实现定点降落（六）：地标识别及控制算法实现

计算几何：Bentley-Ottmann算法求解N条线段交点的可视化实现

Workbench中旋转机械设计计算的快速实现方法

圆弧插值算法详解与代码实现（附完整代码）

三角形相似性验证程序：几何算法实现教程

结构拓扑优化算法源程序代码合集与实现方法详解

数字图像处理：美图秀秀瘦脸算法实现（MLS/仿射变换）

图像处理技巧：用线性插值算法实现高效图像缩放

小波变换模极大值重建信号源程序实现与算法解析

六轴带抓手机械臂运动学建模与轨迹规划算法实现

应用AutoCAD几何计算器实现快速定位

PHOENICS Q&A----很值得参介!

技术文档

动手学强化学习第六章：Dyna-Q算法详解

Deep Dyna-Q读书笔记

81个人脸关键点检测算法与实现

回映算法实现Chanboche非线性硬化本构

OpenGL实现大眼瘦脸算法：实时人脸变形效果

e值的Monte Carlo法估计：数值计算与实现

Go语言几何算法实现：向量运算与图形相交检测

软件许可智能调度：用量预测算法+遗传算法实现分时复用案例

树莓派控制无人机实现定点降落（六）：地标识别及控制算法实现

计算几何：Bentley-Ottmann算法求解N条线段交点的可视化实现

Workbench中旋转机械设计计算的快速实现方法

圆弧插值算法详解与代码实现（附完整代码）

三角形相似性验证程序：几何算法实现教程

结构拓扑优化算法源程序代码合集与实现方法详解

数字图像处理：美图秀秀瘦脸算法实现（MLS/仿射变换）

推荐好文

支持定制与快速响应：我们的优势助力企业许可管理

软件许可证采购策略：从需求分析到供应商评估

性能稳定与高可靠性：许可管理产品的技术底气

软件许可证优化攻略：企业降本增效的关键策略

数字化转型下的许可优化：企业竞争新优势

从采购到管理：建立许可全生命周期管理体系

gotoDetail

武汉格发信息技术有限公司

湖北省武汉市经开区科技园西路6号103孵化器

电话：155-2731-8020 座机：027-59821821

电子邮件：tanzw@gofarlic.com

links

友情链接

格发

发现

终端软件管理

方案

半导体行业

服务

关于

© gofarlic.com 武汉格发信息技术有限公司 - 鄂ICP备18026411号-1 - 鄂公网安备42011302000881号

隐私声明 | 使用条款 | 网站地图

联系我们

武汉格发信息技术有限公司

湖北省武汉市经开区科技园西路6号103孵化器

电话：155-2731-8020 座机：027-59821821

邮件：tanzw@gofarlic.com

发现

终端软件管理

方案

半导体行业

服务

关于

隐私声明 | 使用条款

Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利

鲁ICP备14018425号-1 鄂公网安备42011302000881号

遇到许可问题？该如何解决！？

评估许可证实际采购量？

不清楚软件许可证使用数据？

收到软件厂商律师函!?

想要少购买点许可证，节省费用？

收到软件厂商侵权通告!?

有正版license，但许可证不够用，需要新购？

联系方式

board-phone

155-2731-8020

close1

预留信息，一起解决您的问题

* 姓名：

* 手机：

* 公司名称：

姓名不为空

姓名不为空

手机不正确

手机不正确

公司不为空

公司不为空