软链接、硬链接和引用链接,以及如何实现文件快速拷贝(cp --reflink)

Linux系统(包括Unix系统)有三种类型的链接文件:symlinks(符号链接、软连接)hardlinks(硬链接)reflinks(引用链接),其中软链接和硬链接比较常见。

首先来查看一个普通文件的信息

# stat a.yaml 
  File: ‘a.yaml’
  Size: 2083            Blocks: 8          IO Block: 4096   regular file
Device: 8b6h/2230d      Inode: 272261807   Links: 2
Access: (0644/-rw-r--r--)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2020-05-18 16:59:16.522215427 +0800
Modify: 2020-05-18 16:59:12.544246453 +0800
Change: 2020-05-20 17:48:31.322242335 +0800
 Birth: -

软链接

cp --symbolic-link 源文件(或目录) 目标文件(或目录) (使用软链接代替文件拷贝)或 ln -s 源文件(或目录) 目标文件(或目录)

查看给a.yaml创建的软链接文件b.yaml信息

# stat b.yaml 
  File: ‘b.yaml’ -> ‘a.yaml’
  Size: 6               Blocks: 0          IO Block: 4096   symbolic link
Device: 8b6h/2230d      Inode: 272356832   Links: 1
Access: (0777/lrwxrwxrwx)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2020-05-20 17:48:33.210227684 +0800
Modify: 2020-05-20 17:48:25.150290232 +0800
Change: 2020-05-20 17:48:25.150290232 +0800
 Birth: -

从上面的文件信息可以看出:软链接文件是一个独立的文件,其文件内容记录的源文件地址。当源文件被被重命名、移动或删除,软链接文件仍然存在,但是软链接文件将指向一个不复存在的地址。如果删除软链接文件,源文件不受影响。

硬链接

cp --link 源文件 目标文件(使用硬链接代替文件拷贝)或 ln 源文件 目标文件

查看给a.yaml创建的硬链接文件c.yaml信息

# stat c.yaml 
  File: ‘c.yaml’
  Size: 2083            Blocks: 8          IO Block: 4096   regular file
Device: 8b6h/2230d      Inode: 272261807   Links: 2
Access: (0644/-rw-r--r--)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2020-05-18 16:59:16.522215427 +0800
Modify: 2020-05-18 16:59:12.544246453 +0800
Change: 2020-05-20 17:48:31.322242335 +0800
 Birth: -

从上面的文件信息可以看出:硬链接文件是一个与源文件共享同一个inode信息的文件,具有相同inode的文件互为硬链接文件。即使源文件经过重命名、移动和删除,也不影响硬链接文件。只有删除该inode的所有硬链接文件时,即Links数量为0,才会真正删除该文件。

建立硬链接时,链接文件和被链接文件必须位于同一个文件系统中,并且不能给目录创建硬链接。既可以文件创建软链接,也可以为目录创建软链接,而且软链接不受文件系统限制,可以跨文件系统。

根据上面的介绍,可以得到如下所示的软链接和硬链接结构图:

硬链接文件和软链接文件

引用链接

cp --reflink=auto 源文件 目标文件 (使用引用链接代替拷贝, --reflink=auto|always)

查看给a.yaml创建的引用链接文件c.yaml信息

# stat e.yaml 
  File: ‘e.yaml’
  Size: 2083            Blocks: 8          IO Block: 4096   regular file
Device: 8b6h/2230d      Inode: 272249184   Links: 1
Access: (0644/-rw-r--r--)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2020-05-20 18:32:11.503910740 +0800
Modify: 2020-05-20 18:32:11.503910740 +0800
Change: 2020-05-20 18:32:11.503910740 +0800
 Birth: -

最初实现文件快速拷贝使用的是hardlinks,但这样的实现方式存在明显弊端,因为该文件的所有硬链接文件共享inode信息,当其中一个文件被修改时,其他文件也会受到影响。

reflink拷贝文件的方式解决了上面存在的问题。引用链接文件用于独立与源文件的inode信息,但是引用链接文件的inode和源文件的inode会共享数据块信息,只有当数据块被修改的情况下才会复制数据块信息。因此源文件的重命名、移动和删除,不会影响引用链接文件。

reflink是实现文件快速拷贝的基础。linux的cp命令,当指定了reflink参数时,执行轻量化的复制,即只在数据块被修改的情况下才会复制。

根据上面的介绍,可以得到如下所示的引用链接结构图:

引用链接文件