搭建自定义OpenAI Gym环境,设计自己的机器人

Gym是一个用于 测试和比较 强化学习算法的工具包,它不依赖强化学习算法结构,并且可以使用很多方法对它进行调用,像TensorFlow、Theano。

Gym库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好的工作。并且含有游戏界面,能够帮助你去写更适用的算法。

搭建Gym仿真环境

  • 安装Anaconda3
  • 创新虚拟环境
    Anaconda创建虚拟环境的格式为:conda create –-name 你要创建的名字 python=版本号。比如我创建的虚拟环境名字为gym, 用的python版本号为3.6,可这样写:
conda create –-name gym python=3.6
  • 安装MuJoCo

    1. MuJoCo(Multi-Joint dynamics with Contact)是一个物理模拟器,可以用于机器人控制优化等研究。它类似于Adams,是一个多体的仿真平台。

    2. MuJoCo官网下载对应平台的mjpro150,Windows 64位系统需要下载mjpro150 win64,同时点击Licence下载许可证,需要full name, email address, computer id 等信息,其中根据使用平台下载 getid_win64.exe(可执行文件),在命令行下执行,可获得computer id,提交这些信息能够获得30天的临时许可。

    3. C:\Users\用户名下新建.mujoco文件夹,并将mjpro150解压至该文件夹,将证书复制至C:\Users\用户名\.mujocoC:\Users\用户名\.mujoco\mjpro150\bin目录。如果为Linux/MacOS系统,该目录为~/.mujoco

  • 安装gym

git clone https://github.com/openai/gym.git
cd gym
pip install -e '.[all]'

测试gym环境

import gym

env = gym.make('CartPole-v0')
env.reset()

reward_sum = 0

for _ in range(1000):
    env.render()
    action = env.action_space.sample()
    observation, reward, done, info = env.step(action)
    reward_sum += reward
    if done:
        print('reward_sum:', reward_sum)
        reward_sum = 0
        env.reset()

测试MuJoCo环境

import gym
env = gym.make('InvertedPendulum-v2')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
  • 安装Spinning Up
    Spinning Up 是OpenAI提供的一个深度强化学习的教学资源,旨在快速入门深度强化学习。
git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .
  • 安装Baselines
    OpenAI Baselines是一系列高质量强化学习算法的实现
git clone https://github.com/openai/baselines.git
cd baselines
pip install -e .

测试 Gym 和 Spinning Up、Baselines 环境

  • Spinning Up
# 运行
python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999
# 查看结果数据
python -m spinup.run test_policy data/installtest/installtest_s0
# 查看仿真动画
python -m spinup.run plot data/installtest/installtest_s0
  • Baselines
python -m baselines.run --alg=ppo2 --env=CartPole-v0 --network=mlp --num_timesteps=2e7

设计自己的机器人流程

  1. myrobot.xml, 机器人模型文件,位于gym目录下envs/mujoco/assets目录下
  2. myrobot.py, 位于gym目录下envs/mujoco目录下
  3. 修改envs/mujoco/__init__.py文件,在最后增加
from gym.envs.mujoco.myrobot import MyRobotEnv
  1. 修改envs/__init__.py文件,在最后增加
register(
    id='MyRobot-v0',
    entry_point='gym.envs.mujoco.myrobot:MyRobotEnv',
)
  1. 测试模型
import gym
env = gym.make('MyRobot-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

myrobot.xml文件

xml文件的模板为

<mujoco model="MyRobot">
    <compiler angle="degree" coordinate="local" inertiafromgeom="true" />
    
    <option integrator="RK4" timestep="0.01" />
    
    <custom>
    </custom>

    <default>
    <!-- 一些默认值 -->
    </default>
    
    <asset>
    <!-- 一些变量定义 -->
    </asset>
    
    <!-- 实体模型 -->
    <worldbody>
    <!-- 光照 -->
    <light cutoff="100" diffuse="1 1 1" dir="-0 0 -1.3" directional="true" exponent="1" pos="0 0 1.3" specular=".1 .1 .1"/>
    <!-- 地板 -->
    <geom conaffinity="1" condim="3" material="MatPlane" name="floor" pos="0 0 0" rgba="0.8 0.9 0.8 1" size="40 40 40" type="plane"/>
    <body name="segway">
    </body>
    </worldbody>
    
    <actuator>
    <!-- 驱动 -->
    </actuator>
</mujoco>

worldbody是模型部分,一般有光照light、地面(一个极薄的平面)、机器人模型<body name="segway"></body>
在body部分,并列的两个geom是固连的关系,geom所属的关节joint应与其并列,

myrobot.py 文件

测试

Roboschool

Roboschool 是基于 OpenAI Gym 强化学习仿真包的物理仿真引擎。由于 MuJoCo 不开源且收费,所以 OpenAI 的大佬们将 Roboschool 作为 MuJoCo 的替代品。可以在一个场景当中训练多个 Agent 并且完成一挑战任务。

参考文献

  1. OpenAI Gym构建自定义强化学习环境
  2. 强化学习仿真环境gym搭建
  3. MuJoCo官网
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容