用Python玩转Hadoop

做数据分析最好的语言当然要数Python，虽然Hadoop由JAVA写成，但Python也可以很好地操控他。O’Reilly新书Hadoop with Python就介绍了如何使用Python Hadoop。书里面同时简要介绍了一些Hadoop的基本概念，因此笔记里包含一些关键知识点以及Python操作Hadoop的基本方法。书籍链接，右边填入个人信息就可以免费下载。

第一章 HDFS

1.1 简介

HDFS由两个主要进程：NameNode和DataNode，往往一个HDFS集群由一个专门服务器跑NameNode，上千个机器跑DataNode

NameNode

主要存储filenames，file permissions，location of each block of each file。

Secondary NameNode保存备份以防止NameNode挂掉。

DataNode

存储blocks，并且一个挂掉后NameNode会立刻复制其中的信息。

An HDFS cluster with a replication factor of two; the NameNode contains the mapping of files to blocks, and the DataNodes store the blocks and their replicas

1.2 命令行HDFS交互

$ hdfs dfs -ls /
$ hdfs dfs -mkdir /user/hduser
$ hdfs dfs -put /home/hduser/input.txt /user/hduser
$ hdfs dfs -get input.txt /home/hduser

1.3 Snakebite实现Python与HDFS交互

Snakebite是一个python库，可以通过两种方式实现对HDFS的操作。第一种还是通过命令行，第二种则是通过Python脚本实现。官方文档在这里。

首先安装Snakebite，目前仅支持python2

$ pip install snakebite

第一种. CLI交互

首先要做一下配置，一种简便的方法是创建~/.snakebiterc并写入如下信息。
注意host和port以及namenodes的数量要随实际情况修改。

{
  "config_version": 2,
  "use_trash": true,
  "namenodes": [
    {"host": "localhost", "port": 9000, "version": 9},
    {"host": "namenode-ha2", "port": 8020, "version": 9}
  ]
}

然后就可以通过snakebite option来进行操作了。
相比于hdfs bfs -option省去了-，更加美观方便。

$ snakebite --help #获取帮助信息
$ snakebite ls /
Found 1 items
drwxr-xr-x   - c          supergroup          0 2017-04-03 15:47 /xueshu

第二种. 程序交互

程序交互肯定更为实用啦，以后一个python脚本完成配置加运行不再是梦想，立刻来尝试几个基本功能。

先来看一个ls命令

from snakebite.client import Client

client = Client('localhost', 9000)
for x in client.ls(['/']):
    print x

首先通过Client('localhost', 9000)建立起连接。然后每一条操作都是Client类的一个方法，注意为了效率，每个方法返回的都是一个Iterator。所以要完成全部操作，必须写入一个for循环中，同时把返回信息写出。

另外一些常用操作列在下面，注意每个方法返回的都是Python Iterator：

client.mkdir(['/foo/bar', '/input'], create_parent=True) # 创建目录
client.delete(['/foo', '/input'], recurse=True) # 删除文件或目录
client.copyToLocal(['/input/input.txt'], '/tmp') # 下载文件
client.text(['/input/input.txt']) # 显示文件

第二章 MapReduce

2.1 数据流

第一阶段 Map

Mapper函数接受Key-Value对的输入并输出Key-Value对。

第二阶段 Shuffle and Sort

把Mapper的中间结果移动到Reducer的过程叫做Shuffling。

Shuffling由一个Partitioner函数完成，Partitioner函数接收Mapper输出的Key以及Reducer的数量，输出对应的Reducer号。

Shuffling保证了相同Key的数据进入同一个Reducer，默认的Partitioner是hash法映射的。

在Reducer拿到数据前还要进行Sort。

第三阶段 Reduce

Reducer函数接收Iterator形式的数据流，并且将相同Key的数据做运算获得输出。

Reducer实例

2.2 Hadoop Streaming

Hadoop Streaming提供了一个便于进行MapReduce编程的工具包，使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer，从而充分利用Hadoop并行计算框架的优势和能力，来处理大数据。

工作原理

对Hadoop而言，Mapper和Reducer都是从标准输入读取并输出到标准输出

所以Hadoop Streaming就是做：

从标准输入依次读取文件的每一行
执行函数
把标准输出转化成Key-Value对，或者Key-Null对

Python实例

这个例子是WordCount的Python版本，分别实现了mapper和reducer，它们都是从stdin读取一行处理一行并将结果输出在stdout

mapper.py
#!/usr/bin/env python
import sys

for line in sys.stdin:
    words = line.split()
    for word in words:
        print '{0}\t{1}'.format(word, 1)

首先，程序第一行指定python路径，用#!/usr/bin/env python可以满足多数需求，这样子可以用./mapper.py直接运行

mapper函数依次读取stdin的每一行并输出每一个单词和出现次数的Key-Value对，这里Value总是1。

reducer.py
#!/usr/bin/env python
import sys

curr_word = None
curr_count = 0

for line in sys.stdin:
    word, count = line.split('\t')
    count = int(count)
    if word == curr_word:
        curr_count += count
    else:
        if curr_word:
            print '{0}\t{1}'.format(curr_word, curr_count)
        curr_word = word
        curr_count = count

if curr_word == word:
    print '{0}\t{1}'.format(curr_word, curr_count)

Reducer函数也是从stdin读取每一行，然后把每个单词的出现次数统计出来。注意reducer接收的输入是排好序的！

为了使文件可以直接执行，即executable，运行这一行

chmod a+x mapper.py reducer.py

为了测试mapper和reducer的可用性，可以用这行linux命令，具体不多解释了

echo 'jack be nimble jack be quick' | ./mapper.py| sort -t 1 | ./reducer.py

接下来要做的事情就是交给hadoop完成词频统计吧。在我的系统下命令是这样的，具体实现因人而异。

实际上我们就是利用了hadoop streaming这样一个jar包，来将mapper和reducer函数指定为某个脚本，只要我们保证mapper和reducer是可以接收标准输入并把结果输出在标准输出的脚本即可，python、shell、R之类的都是无所谓的。注意input和output的文件路径都是指HDFS的路径，要事先将输入文件放入。

$ hadoop jar \
$HADOOP_HOME/libexec/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar \
 -files mapper.py,reducer.py \
-mapper mapper.py \
-reducer reducer.py \
-input /user/hduser/input.txt \
-output /user/hduser/output

我们的输入input.txt是这样的

jack be nimble jack be quick
quick jack me

在HDFS的/user/hduser/output/part-00000中得到以下输出，可以看到，我们已经成功了。

be  2
jack    3
me  1
nimble  1
quick   2

2.3 mrjob实现Python操控Hadoop Streaming

mrjob是一个Python库，实现了Hadoop的MapReduce操作。它封装了Hadoop streaming，可以让人用全Python的脚本实现Hadoop计算。它甚至可以让人在没有Hadoop环境下完成测试，并允许用户将mapper和reducer写进一个类里。简直是神器！

安装

一句话，pip依然那么轻松写意dyis

$ pip install mrjob

Python代码

from mrjob.job import MRJob

class MRWordCount(MRJob):
    def mapper(self, _, line):
        for word in line.split():
            yield(word, 1)

    def reducer(self, word, counts):
        yield(word, sum(counts))

if __name__ == '__main__':
    MRWordCount.run()

运行

$ python word_count.py input.txt
"be"    2
"jack"  3
"me"    1
"nimble"    1
"quick" 2

就这样好了？我们都不需要配置Hadoop环境吗？答案是不需要，这就是mrjob的强大之处，帮你模拟了Hadoop的MR计算方式。

详解

mapper很容易理解，不多说。接收key和value并输出key和value的tuple，往往会缺省key。
combiner在这里没有定义，实际上combiner()是运行在mapper和reducer之间的过程。
书里的定义如下：The combiner’s input is a key, which was yielded by the mapper, and a value, which is a generator that yields all values yielded by one mapper that corresponds to the key. The combiner yields tuples of (output_key, output_value) as output.
简单说就是combiner把mapper结果中key相同的值组合起来，生成一个generator把它作为该key新的value，并交给reducer去做。
reducer也是接收(key, value)，注意这里的value已经是一个Generator了。输出(key, value)。

用Python玩转Hadoop

用Python玩转Hadoop

第一章 HDFS

1.1 简介

NameNode

DataNode

1.2 命令行HDFS交互

1.3 Snakebite实现Python与HDFS交互

第一种. CLI交互

第二种. 程序交互

第二章 MapReduce

2.1 数据流

第一阶段 Map

第二阶段 Shuffle and Sort

第三阶段 Reduce

2.2 Hadoop Streaming

工作原理

Python实例

2.3 mrjob实现Python操控Hadoop Streaming

安装

Python代码

详解

更多选项

推荐阅读更多精彩内容