Pytorch|官方入门教程-学习笔记(一)-tensor与自动微分

背景介绍

Pytorch是torch的一个衍生品,在Python语言中可以替代numpy的一个强大的科学计算库。

Pytorch与TensorFlow的主要区别:

  • TensorFlow是基于静态计算图,需要先定义再运行,一次定义多次运行;
  • Pytorch基于动态计算图,在运行过程中进行定义,可以实现多次构建多次运行。

Pytorch官方文档传送门

基础知识

Tensor

tensor与numpy的ndarray类似,可以使用GPU加速。
1.初始化操作



2.加法操作
函数名后带下划线_的函数会修改tensor本身
3.支持numpy的所有标准操作
Tensor与numpy对象共享内存,因此二者之间可以快捷转换

Autograd自动微分

Autograd包可以为tensor上的所有操作提供自动微分,并记录这些操作生成一个动态计算图。目前pytorch的版本将tensor的运算与variable的自动微分进行了合并,可以更为便捷的使用。

  • 跟踪tensor上的所有操作:设置属性requires_grad = True
  • 自动计算所有梯度:调用.backward()
  • 停止跟踪tensor:调用.detach() || 使用代码块with torch.no grad
  • 若tensor不仅仅是标量,需要靠gradient参数来说明张量的形式

function类对于autograd的实现也很重要。tensor与function类互相连接并构建一个计算图,即有向无环图(DAG),用于保存整个完整计算过程的历史信息。原先的pytorch版本是将tensor封装为一个variable,经由variable来实现对tensor的backward,现在的版本可以直接由tensor进行微分。
每当对tensor施加一个运算的时候,就会产生一个function对象,由tensor的.grad_fn属性指向这个function对象,来产生运算结果,记录运算的发生,并记录运算的输入。tensor使用.grad.fn属性记录这个计算图的入口,反向传播中,autograd引擎会按照逆序,通过function的backward依次计算梯度。
(若某个变量是由用户创建的,则它为叶子节点,对应的.grad_fn为none)


backward函数实现对tensor的反向传播。对计算图中的根节点调用backward()方法,autograd会自动沿着计算图反向传播,计算每一个叶子节点的梯度。
torch.autograd.backward(tensors, grad_tensors=None, retain_graph=None, create_graph=False, grad_variables=None)参数介绍如下:

  • tensors(tensor序列) — 需要被求导的张量
  • grad_tensors(tensor序列或None) — Jacobian矢量积中的矢量,也可理解为链式法则的中间变量的梯度
  • create_graph(bool) — 默认为false,否则会对反向传播过程再次构建计算图,可通过backward of backward实现求高阶函数
    backward()函数中的grad_tesnors参数size需要与根节点的size相同。当根节点为标量时,则无需说明该参数,例如对out进行反向求导:
    若进行反向传播的根节点为一个向量,则需要传入与该节点同等size的向量,以下为示例:

可见这里传入的参数是对原本正常求出的Jacobian matrix进行了线性操作。torch.autograd不能直接计算整个雅克比,因此需要我们给backward()传递向量作为参数从而得到雅可比向量积。
雅可比向量积是说,对于函数\vec y=f(\vec x)定义雅可比矩阵为J,则对于给定的向量v = (v_1,v_2,...,v_m)^T,计算J·v即为所求的雅可比向量积。

对于传入的参数与雅可比矩阵之间的对应关系,本伸手党在这里贴两个链接
backward()参数解释传送门1
backward()参数解释传送门2

总结来说,对于backward() 函数传入参数的解释有以下几点可以参考:

  • 输入的参数即为参与雅可比向量积计算的v
  • 根节点为标量时,默认传入的参数为([[1.]]);
  • 手动设置该参数的意义在于,需要由开发者决定根节点向量的每个分量对叶子节点求导时的权重。

推荐阅读更多精彩内容