TensorFlow GPU 与源码编译

在深度学习中，服务器的GPU可以极大地加快算法的执行速度，不同版本的TensorFlow默认使用的GPU版本不同，导致与服务器无法兼容，这就需要根据服务器的GPU版本，重新编译TensorFlow源码。

欢迎Follow我的GitHub：https://github.com/SpikeKing

GPU

Tensorflow从源码安装，优先参考。

检查GPU

检测服务器的GPU，用于在编译中选择合适的GPU版本。CUDA是NVIDIA发布的GPU上的并行计算平台和模型，多数GPU的运行环境都需要CUDA的支持。

导入CUDA的环境变量，具体的cuda版本，在/usr/local中查看。

export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

检查CUDA版本，使用nvcc命令，当前CUDA版本是8.0.61：

nvcc  --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2016 NVIDIA Corporation
Built on Tue_Jan_10_13:22:03_CST_2017
Cuda compilation tools, release 8.0, V8.0.61

或，查看version文件，当前CUDA版本是8.0.61：

cat /usr/local/cuda/version.txt

CUDA Version 8.0.61

检查cuDNN的版本，当前cuDNN版本是6.0.21：

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

#define CUDNN_MAJOR      6
#define CUDNN_MINOR      0
#define CUDNN_PATCHLEVEL 21
--
#define CUDNN_VERSION    (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

#include "driver_types.h"

检测GPU数量和型号，当前服务器的GPU数量是4：

nvidia-smi

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.26                 Driver Version: 375.26                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  TITAN X (Pascal)    Off  | 0000:02:00.0     Off |                  N/A |
| 23%   20C    P0    54W / 250W |      0MiB / 12189MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  TITAN X (Pascal)    Off  | 0000:03:00.0     Off |                  N/A |
| 23%   21C    P0    54W / 250W |      0MiB / 12189MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  TITAN X (Pascal)    Off  | 0000:83:00.0     Off |                  N/A |
| 23%   21C    P0    55W / 250W |      0MiB / 12189MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  TITAN X (Pascal)    Off  | 0000:84:00.0     Off |                  N/A |
|  0%   21C    P0    51W / 250W |      0MiB / 12189MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

TensorFlow编译

参考TensorFlow的官方文档。

Bazel

Bazel是构建和测试软件的工具。在Ubuntu服务器中，支持apt工具安装Bazel，参考。

安装JDK（Install JDK 8）：

sudo apt-get install openjdk-8-jdk

添加Bazel的发布URI作为包源（Add Bazel distribution URI as a package source）

echo "deb [arch=amd64] http://storage.googleapis.com/bazel-apt stable jdk1.8" | sudo tee /etc/apt/sources.list.d/bazel.list
curl https://bazel.build/bazel-release.pub.gpg | sudo apt-key add -

安装Bazel（Install and update Bazel）

sudo apt-get update
sudo apt-get install bazel

与官网略有不同，不需要更新apt-get，因为storage.googleapis.com可能无法访问。

安装不同版本，参考，下载0.21.0，同时，卸载已有版本，删除若干bazel文件，参考：

https://github.com/bazelbuild/bazel/releases/tag/0.21.0

检查Bazel版本：

bazel version

输出，Bazel安装成功：

Build label: 0.15.0
Build target: bazel-out/k8-opt/bin/src/main/java/com/google/devtools/build/lib/bazel/BazelServer_deploy.jar
Build time: Tue Jun 26 12:10:19 2018 (1530015019)
Build timestamp: 1530015019
Build timestamp as int: 1530015019

如果apt更新较慢，修改源：sudo vim /etc/apt/sources.list

# 默认注释了源码镜像以提高 apt update 速度，如有需要可自行取消注释
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-security main restricted universe multiverse

# 预发布软件源，不建议启用
# deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
# deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse

导入CUDA

与官方文档不同，不需要安装libcupti和cuda-command-line-tools，已经包含在CUDA文件夹中，导入CUDA文件夹即可。

export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

编译源码

下载TensorFlow源码

git clone https://github.com/tensorflow/tensorflow

配置编译，选择GPU支持。

./configure

Please specify the location of python. [Default is /data2/wcl1/tensorflow/venv/bin/python] ## 选择Python的版本，2或3

## 其余选N或n

Do you wish to build TensorFlow with CUDA support? [y/N]: y  # 选择GPU版本，y
CUDA support will be enabled for TensorFlow.

Please specify the CUDA SDK version you want to use. [Leave empty to default to CUDA 9.0]: 8.0  # CUDA版本，与服务器一致，8.0

Please specify the cuDNN version you want to use. [Leave empty to default to cuDNN 7.0]: 6.0.21  # cuDNN版本，与服务器一致，6.0.21

## 其余选N，或默认

Do you want to use clang as CUDA compiler? [y/N]: N  ## 选择nvcc
nvcc will be used as CUDA compiler.

## 其余选N，或默认

Configuration finished

构建GPU包：

bazel build --config=opt --config=cuda //tensorflow/tools/pip_package:build_pip_package

libdevice异常：

Cannot find libdevice.10.bc under /usr/local/cuda-8.0

则，修改/usr/local/cuda-8.0/nvvm/libdevice/的libdevice.compute_50.10.bc为libdevice.10.bc，同时，复制到/usr/local/cuda-8.0/中。

cd /usr/local/cuda-8.0/nvvm/libdevice/
sudo cp libdevice.compute_50.10.bc libdevice.10.bc
sudo cp libdevice.compute_50.10.bc /usr/local/cuda-8.0/libdevice.10.bc

Bazel的构建时间较长，耐心等待...，共nnnn步，依次执行。

将构建完成的数据，转换为whl的pip支持包，默认存放于/tmp/tensorflow_pkg文件夹中：

bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

使用pip安装软件包，TensorFlow的1.9版本，支持GPU：

pip install /tmp/tensorflow_pkg/tensorflow-1.9.0rc0-cp27-cp27mu-linux_x86_64.whl -i https://pypi.douban.com/simple

python3.6m

找不到 /usr/include/python3.6m，安装libpython3.6-dev

sudo apt-get install libpython3.6-dev

参考

安装cudnn

下载，需要登录，网址：https://developer.nvidia.com/rdp/cudnn-archive

cudnn

安装tgz格式：
- 复制cudnn.h用于引用头文件；
- 复制lib库；
- 生成软连接，这个很重要，因为配置只能使用软连接；
- 生成配置，即可

lib64

命令如下：

sudo tar xvf cudnn-7.0-linux-x64-v4.0-rc.tgz
cd cuda/include
sudo cp *.h /usr/local/include/
cd ../lib64
sudo cp lib* /usr/local/lib/
cd /usr/local/lib
sudo chmod +r libcudnn.so.4.0.4
sudo ln -sf libcudnn.so.4 libcudnn.so
sudo ln -sf libcudnn.so.4.0.4 libcudnn.so.4
sudo ldconfig

检测

检查是否安装成功，退出TensorFlow文件夹，进入Python的shell，执行：

import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))

platform异常，原因是位于tensorflow文件夹下，import导入tensorflow的包：

No module named tensorflow.python.platform

则，退出tensorflow文件夹，再进入Python的shell，导入tensorflow包即可。

检查是否可用GPU，执行：

from tensorflow.python.client import device_lib
local_device_protos = device_lib.list_local_devices()
print("all: %s" % [x.name for x in local_device_protos])

## 输出
all: [u'/device:CPU:0', u'/device:GPU:0', u'/device:GPU:1', u'/device:GPU:2', u'/device:GPU:3']

注意：遇到在编译TensorFlow之后，无法执行nvidia-smi，卡住（Stuck），在重启服务器之后，恢复正常，原因不明，可能GPU资源未完全释放，又进行二次加载，导致异常。

OK, that's all! Enjoy it!

最后编辑于：2019.05.07 19:45:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,117评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,963评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,897评论 0赞 240
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,805评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,208评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,535评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,797评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,493评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,215评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,477评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,988评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,325评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,971评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,807评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,544评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,455评论 2赞 266

TensorFlow GPU 与 源码编译