pyTorch入门3

参考了《pyTorch实战》《动手学深度学习（pyTorch版）》

1. 层（Layer）和块（Module）

神经网络是由许多层组成的，而在大型的神经网络中，许多层又构成了比层大一些的组件——块。

如果熟悉C或C++的话，可以把层看做是基本数据类型，把块看作是结构体Struct，例如之前介绍的nn.Sequential就可以看作是一种特殊的块。

1.1 自定义块

下面来实现一个多层感知机的块，要定义一个块，一般需要继承自torch.nn.Module，同时实现两个函数，分别是

__init__(self)
forward(self, X) 前向传播函数

注意：当调用前向传播时，不要直接使用forward()函数，而是应该实例化块后，像使用函数一样使用该变量，进而获得前向传播的效果，此时，pyTorch会调用nn.Module的__call__()函数，进而在其中调用forward()，从而实现前向传播。

import torch
from torch import nn
from torch.nn import functional as F

class MLP(nn.Module):
    # 用模型参数声明层。这里，我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params
        super().__init__()
        self.hidden = nn.Linear(20, 256)  # 隐藏层
        self.out = nn.Linear(256, 10)  # 输出层

    # 定义模型的前向传播，即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))
    
X = torch.rand(2, 20)
net = MLP()
print(net(X))
print(net.forward(X)) # 不要这样做，否则会导致很多钩子函数无法调用

tensor([[ 0.0758,  0.2157,  0.0882, -0.3040,  0.2303,  0.0867, -0.1976, -0.0529,
         -0.0375,  0.0187],
        [-0.1651,  0.1769, -0.0810, -0.2636,  0.1494,  0.1209, -0.1045,  0.0484,
         -0.0541,  0.1236]], grad_fn=<AddmmBackward0>)
tensor([[ 0.0758,  0.2157,  0.0882, -0.3040,  0.2303,  0.0867, -0.1976, -0.0529,
         -0.0375,  0.0187],
        [-0.1651,  0.1769, -0.0810, -0.2636,  0.1494,  0.1209, -0.1045,  0.0484,
         -0.0541,  0.1236]], grad_fn=<AddmmBackward0>)

1.2 自定义顺序块

下面的代码实现了一个自己定义的顺序块，在其中的__init__()函数中，我们使用_modules属性（_module的数据类型是OrderedDict，因此在forward()函数中，需要使用values()来进行遍历）来保存每个加入到该顺序块中的子块。之所以这样做，我的理解是为后续能够找到每层的参数提供一个标准化的变量，进而实现模型参数的递归遍历。

class MySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # 这里，module是Module子类的一个实例。我们把它保存在'Module'类的成员
            # 变量_modules中。_module的类型是OrderedDict
            self._modules[str(idx)] = module

    def forward(self, X):
        # OrderedDict保证了按照成员添加的顺序遍历它们
        for block in self._modules.values():
            X = block(X)
        return X

2 模型参数

2.1 参数的查看

在查看模型的参数上，主要由三个函数，分别是：

model.state_dict()：返回一个OrderedDict对象，一般用于模型的保存
model.parameters()：返回一个生成器（generator，即用yield返回），只包含了层的权重，一般用于优化器的初始化
model.named_parameters()：返回一个生成器，其中包含了层的名称以及层的权重

import torch
from torch import nn

net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4))
net(X)

tensor([[0.3910],
        [0.3429]], grad_fn=<AddmmBackward0>)

net[0].state_dict()

OrderedDict([('weight',
              tensor([[-0.2085,  0.0465,  0.3837, -0.0263],
                      [ 0.2905,  0.1418, -0.1686,  0.3553],
                      [-0.3393, -0.0554, -0.1383, -0.0337],
                      [ 0.0722, -0.2049, -0.4940, -0.4341],
                      [-0.1917,  0.3491, -0.2002, -0.4147],
                      [-0.1582,  0.4971, -0.4866,  0.4300],
                      [-0.2066,  0.2952, -0.0132,  0.3540],
                      [ 0.1061, -0.2398, -0.3574,  0.2755]])),
             ('bias',
              tensor([-0.4946, -0.3924, -0.3753,  0.1968, -0.3885, -0.3502,  0.2036, -0.0082]))])

print(net.parameters())
print(net.named_parameters())

<generator object Module.parameters at 0x00000152F0664740>
<generator object Module.named_parameters at 0x00000152F0664740>

print(*[param.shape for param in net.parameters()])

torch.Size([8, 4]) torch.Size([8]) torch.Size([1, 8]) torch.Size([1])

print(*[(name, param.shape) for name, param in net.named_parameters()])

('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))

要获得特定的层的参数，可以通过层的名称进行索引，索引的方式有如下几种：

print(f"第2层的权重——类的形式:{net[2].weight}")
print(f"第2层的偏置——类的形式:{net[2].bias}")
print(f"第2层的偏置——数据的形式:{net[2].bias.data}")
print(f"第2层的梯度:{net[2].bias.grad}")

print(f"第2层的权重——数据的形式:{net.state_dict()['2.weight']}")

第2层的权重——类的形式:Parameter containing:
tensor([[-0.0497, -0.2259, -0.0557, -0.0915, -0.3122, -0.0528,  0.2824,  0.2857]],
       requires_grad=True)
第2层的偏置——类的形式:Parameter containing:
tensor([0.2492], requires_grad=True)
第2层的偏置——数据的形式:tensor([0.2492])
第2层的梯度:None
第2层的权重——数据的形式:tensor([[-0.0497, -0.2259, -0.0557, -0.0915, -0.3122, -0.0528,  0.2824,  0.2857]])

2.2 模型权重初始化

常用的初始化方法包括X吴恩达的视频中关于这一部分的理论部分讲得更加浅显一些

深度之眼这一部分(《权值初始化》)

常用的模型初始化方法包括：

Xavier初始化
Kaiming初始化

2.2.1 pyTorch中的初始化

torch中的初始化主要使用torch.nn.init模块，其中内置了多种初始化方法：

init.normal_(weight, mean, std) 初始化为正态分布
init.zeros_(bias) 初始化为全0
init.xavier_normal_(weight) xavier初始化，用一个正态分布生成值，填充输入的张量或变量
init.xavier_uniform_(weight) xavier初始化，用一个均匀分布生成值，填充输入的张量或变量
init.uniform_() 初始化为均匀分布
init.constant_(weight, val) 以val值填充变量weight
init.kaiming_normal_(weight) xavier初始化，用一个正态分布生成值，填充输入的张量或变量
init.kaiming_uniform_(weight) Kaiming初始化，用一个均匀分布生成值，填充输入的张量或变量

def init_normal(m):
    if type(m) ==  nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=.01)
        nn.init.zeros_(m.bias)

net.apply(init_normal)
print(net[0].weight.data[0])
print(net[0].bias.data[0])

tensor([ 0.0079, -0.0053, -0.0052, -0.0114])
tensor(0.)

还可以对特定的块或者层进行初始化：

def init_xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)

def init_42(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 42)

net[0].apply(init_xavier)
net[2].apply(init_42)

print(net[0].weight.data[0])
print(net[2].weight.data)

tensor([ 0.0540, -0.2176,  0.1471,  0.4690])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])

2.2.2 参数绑定

如果需要在多个层间共享参数，可以定义一个稠密层，然后用这个稠密层的参数来设置另一个层的参数：

shared = nn.Linear(8, 8)

net = nn.Sequential(nn.Linear(4,8),
                    nn.ReLU(),
                    shared, 
                    nn.ReLU(),
                    shared,
                    nn.ReLU(),
                    shared,
                    nn.Linear(8, 1))
net(X)
print(net[2].weight.data[0] == net[4].weight.data[0])

net[2].weight.data[0,0] = 100
print(net[2].weight.data[0] == net[4].weight.data[0])

tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])

2.3 自定义层中的参数

class MyLinear(nn.Module):
    def __init__(self, in_units, units):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(in_units, units))
        self.bias = nn.Parameter(torch.randn(units,))
    def forward(self, X):
        linear = torch.matmul(X, self.weight.data) + self.bias.data
        return F.relu(linear)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271

pyTorch入门3

pyTorch入门3

1. 层（Layer）和块（Module）

1.1 自定义块

1.2 自定义顺序块

2 模型参数

2.1 参数的查看

2.2 模型权重初始化

2.2.1 pyTorch中的初始化

2.2.2 参数绑定

2.3 自定义层中的参数

推荐阅读更多精彩内容