IP属地:广东
近期打算把基于策略梯度的增强学习的几篇论文读了,包括DPG、DDPG、TRPO和A3C,希望能对策略梯度的学习有一个促进。 第一篇论文是Dete...
ICMl2016的最佳论文有三篇,其中两篇花落deepmind,而David Silver连续两年都做了 deep reinforcement ...
这篇论文是飞飞出品,你知道的,imageNet的光环。论文主要是通过深度增强学习让机器人在房间里面找东西。 那么对于基于DRL的算法,确实存在论...
DPG那篇论文读起来很困难,全部是数学公式(话说简书什么时候支持公式编辑啊,只能贴图片,痛苦),今天读的是后续的一篇论文CONTINUOUS C...
1、udacity的term2的最后一个project周一提交,周五才审核通过,好吧,总算完成了term2,五次作业分别是ekf(扩展卡尔曼滤波...
Harari在《人类简史》的结尾处提到“那些永不知足又不负责任的造物主们连他们究竟想要什么都不知道,还有比这更危险的吗?”然后呢,他又写了本《未...
1、上周孩子们的考试终于结束了,成绩结果都一般般,不过首先反思的还是自己,陪孩子的时间太少,有限的时间还往往不耐烦。差评。 2、上线的版本质量总...
1、2018年的第一周是忙碌的一周,解决上线的产品故障,吃自己的狗粮。 2、收到了购物留言的6万多条记录,嗯,应该可以做一个分类器 3、做了一个...