ML-Agents学习笔记四:使用TensorBoard 观察训练

使用TensorBoard 观察训练

按照上一节中描述的方式使用mlagents-learn命令将训练,在首次训练过程中,ml-agents会在根目录下创建一个results目录,并将结果与过程中的统计信息,保存到改目录下对应run-id的文件夹中。

为了在培训期间或之后观察培训过程,请启动TensorBoard:

  1. 打开终端或控制台窗口 -> CD到ML-Agents Toolkit的安装目录。 -> 输入命令运行:
tensorboard --logdir=results/run-id --port=6006

--logdir : 训练统计信息存放目录

results: ml-agents创建的,存放训练数据及结果的目录
run-id : 上节执行训练的命令 mlagents-learn /config/Pyramids.yaml --run-id=Pyramids 中的 Pyramids, ml-agents会把本次训练的结果存在Pyramids目录下

--port : TensorBoard使用的端口,如果不行指定端口,则不需要改参数

  1. 打开浏览器窗口,然后导航到localhost:6006,就能查看详细的训练数据了。

注意: TensorBoard使用的默认端口是6006。如果端口6006上正在运行现有会话,则可以使用--port选项指定端口(如6007)启动新会话。

注意:如果不分配run-id标识符,请mlagents-learn使用默认字符串“ ppo”。所有统计信息将保存到同一子文件夹中,并在TensorBoard中显示为一个会话。几次运行后,在这种情况下显示可能会变得难以解释。您可以删除results目录下的文件夹以清除旧的统计信息。

在TensorBoard窗口的左侧,您可以选择要显示的某个run-id训练结果。您可以选择多个run-id来比较统计信息。TensorBoard窗口还提供有关如何显示和平滑图形的选项。

ML-Agents培训计划保存以下统计信息:

mlagents-TensorBoard
环境统计
  • Environment/Lesson-绘制从课程到课程的进度。只有在进行课程培训时才需要关注。

  • Environment/Cumulative Reward-所有特工的平均累积情节奖励。在成功的培训课程中应增加。

  • Environment/Episode Length -环境中所有特工的每个情节的平均长度。

政策统计
  • Policy/Entropy(PPO; BC)-模型决策的随机性。在成功的培训过程中应缓慢降低。如果它减小得太快,beta 则应增加超参数。

  • Policy/Learning Rate(PPO; BC)-训练算法在搜索最佳策略时需要走多大步。应随时间减少。

  • Policy/Value Estimate(PPO)-代理访问的所有状态的平均值估计。在成功的培训课程中应增加。

  • Policy/Curiosity Reward (PPO +好奇心)-这对应于每集产生的平均累积内在报酬。

学习损失功能
  • Losses/Policy Loss(PPO)-政策损失函数的平均幅度。与策略(决定操作的过程)在多大程度上相关。在成功的培训课程中,其强度应降低。

  • Losses/Value Loss(PPO)-价值函数更新的平均损失。与模型能够预测每个状态的值的程度相关。在坐席正在学习时,该值应增加,然后在奖励稳定后减少。

  • Losses/Forward Loss(PPO +好奇心)-逆模型损失函数的平均幅度。对应于模型对新观测编码的预测能力。

  • Losses/Inverse Loss(PPO + Curiosity)-正向模型损失函数的平均幅度。与模型能够很好地预测两次观察之间采取的行动相对应。

  • Losses/Cloning Loss(BC)-行为克隆损失的平均幅度。对应于模型模拟演示数据的程度。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容