# 二、 卷积网络和训练

python几处值得关注的用法（连接）

def conv2d_size_out(size, kernel_size = 5, stride = 2):
return (size - (kernel_size - 1) - 1) // stride  + 1

class DQN(nn.Module):
def __init__(self, h, w, outputs):
super(DQN, self).__init__()
self.conv1 = nn.Conv2d(3, 16, kernel_size=5, stride=2)
self.bn1 = nn.BatchNorm2d(16)
self.conv2 = nn.Conv2d(16, 32, kernel_size=5, stride=2)
self.bn2 = nn.BatchNorm2d(32)
self.conv3 = nn.Conv2d(32, 32, kernel_size=5, stride=2)
self.bn3 = nn.BatchNorm2d(32)

convw = conv2d_size_out(conv2d_size_out(conv2d_size_out(w)))
convh = conv2d_size_out(conv2d_size_out(conv2d_size_out(h)))
linear_input_size = convw * convh * 32

# Called with either one element to determine next action, or a batch
# during optimization. Returns tensor([[left0exp,right0exp]...]).
def forward(self, x):
x = F.relu(self.bn1(self.conv1(x)))
x = F.relu(self.bn2(self.conv2(x)))
x = F.relu(self.bn3(self.conv3(x)))


• Conv 3通道 16通道
• Conv 16通道 32通道
• Conv 32通道 32通道
• Linear 512节点 2节点

conv 为某维度上卷积后的尺寸，X为卷积前的尺寸。

(W - kernel_size + 2 * padding ) // stride + 1


(size - kernel_size) // stride  + 1


def conv2d_size_out(size, kernel_size = 5, stride = 2):
return (size - (kernel_size - 1) - 1) // stride  + 1


        convw = conv2d_size_out(conv2d_size_out(conv2d_size_out(w)))
convh = conv2d_size_out(conv2d_size_out(conv2d_size_out(h)))
linear_input_size = convw * convh * 32


net = DQN(40, 90, 2).to(device)
scr = get_screen()
net(scr)


OK，返回两个值。

EPS_START = 0.9 # 概率从0.9开始
EPS_END = 0.05  #     下降到 0.05
EPS_DECAY = 200 #     越小下降越快
steps_done = 0 # 执行了多少步


100时

200时

def select_action(state):
global steps_done
sample = random.random() #[0, 1)
#epsilon greedy policy。EPS_END 加上额外部分，steps_done 越小，额外部分越接近0.9
eps_threshold = EPS_END + (EPS_START - EPS_END) * math.exp(-1. * steps_done / EPS_DECAY)
steps_done += 1
if sample > eps_threshold:
#选择使用网络来做决定。max返回 0:最大值和 1:索引
return policy_net(state).max(1)[1].view(1, 1)
else:
#选择一个随机数 0 或 1


pytorch 的 tensor.max() 返回所有维度的最大值及其索引，但如果指定了维度，就会返回namedtuple，包含各维度最大值及索引 (values=..., indices=...) 。

max(1)[1] 只取了索引值，也可以用 max(1).indicesview(1,1) 把数值做成[[1]] 的二维数组形式。为何返回一个二维 [[1]] ? 这是因为后面要把所有的state用torch.cat() 合成batch（cat()说明连接）

    return policy_net(state).max(1)[1].view(1, 1)
# return 0 if value[0] > value[1] else 1


for t in count():
# 1. 获取屏幕 1
last_screen = get_screen()
# 2. 选择行为、步进
action = select_action(state)
_, reward, done, _ = env.step(action)
# 3. 获取屏幕 2
current_screen = get_screen()
# 4. 计算差别 2-1
state = current_screen - last_screen
# 5. 优化网络
optimize_model()


• 上边两个分别是step0和step1原图
• 中间灰色图是差值部分，蓝色是少去的部分，棕色是多出的部分
• 下面两图是原始图覆盖差值图，step0将完全复原为step1，step1则多出部分颜色加强

num_episodes = 50
TARGET_UPDATE = 10

for i_episode in range(num_episodes):
env.reset()
last_screen = get_screen()
current_screen = get_screen()
state = current_screen - last_screen

# [0, 无限) 直到 done
for t in count():
action = select_action(state)
_, reward, done, _ = env.step(action.item())
reward = torch.tensor([reward], device=device)
last_screen = current_screen
current_screen = get_screen()
next_state = None if done else current_screen - last_screen
// 保存 state, action, next_state, reward 到列表 memory

state = next_state
optimize_model()

if done:
break



1. 从memory列表里选取n个 （state, action, next_state, reward）
2. 用net获取state的（net输出为2个值），再用action选出结果
3. 用net获取next_state获取，取最大值 。如果state没有对应的next_state，则
4. 用公式算出期望y： （常量
5. 用smooth_l1_loss计算误差
6. 用RMSprop 反向传导优化网络

，所以 Q Learning 公式中的

