基于Docker部署CDH集群

https://hub.docker.com/r/cloudera/clusterdock

总览
clusterdock是用于创建基于Docker的容器集群的框架。与通常运行单个进程然后在进程终止后退出的常规Docker容器不同,这些容器群集的特征在于以守护程序模式执行初始化进程。因此,这些容器的行为更像是“胖容器”或“轻型虚拟机”;具有可访问IP地址且可模拟独立主机的实体。
用法
设计了clusterdock框架,使其可以用完自己的容器,同时影响主机上的操作。为此,通过使用-v /var/run/docker.sock:/var/run/docker.sock选项来调用docker run来启动框架,以确保由框架启动的容器在主机上启动。为了避免因错误地格式化此框架调用而导致的问题,可以在安装了Docker的主机上获取Bash帮助程序脚本(clusterdock.sh)。之后,可以使用clusterdock_run命令来调用旨在执行clusterdock动作的任何二进制文件。

背景

为了在同一Docker主机上实现多节点集群部署(根据CDH用户的要求进行测试和自学),我们为Apache HBase的clusterdock框架创建了CDH拓扑,该框架是一个基于Python的简单库,旨在协调多个节点在单个主机上的群集部署。

与像Docker Compose这样的现有工具非常擅长管理微服务架构一样,clusterdock协调了多个容器,使其行为更像传统主机。在此范例中,四节点Apache Hadoop集群使用四个容器。在Cloudera内部,我们发现它是测试和原型制作的好工具(但既不打算用于生产用途也不被支持)。

入门

首先,在主机上安装Docker。较旧版本的Docker缺少嵌入式DNS服务器,并且无法纠正Cloudera Manager所需的反向主机名查找,因此请确保您运行的是Docker 1.11.0或更高版本。另外,请记住,用于运行CDH群集的主机必须满足与普通多节点部署相同的资源要求。因此,对于两个节点的群集,我们建议至少16GB的可用RAM,对于四个节点的群集,至少建议24GB的可用RAM。

为了易于使用和可移植性,clusterdock本身打包在Docker映像中,并且通过从该映像运行容器并指定操作来执行其二进制文件。这可以通过获取clusterdock.sh帮助程序脚本,然后使用clusterdock_run命令调用感兴趣的脚本来完成。从互联网上执行代码时,总是一个好主意,请检查脚本以使自己确信它的安全性,然后运行

source/ dev / stdin <<<“ $(curl -sL http://tiny.cloudera.com/clusterdock.sh)”

一切准备就绪,就开始吧!

基本用法

使用clusterdock启动集群利用了称为拓扑的抽象。简而言之,这是将预构建的Docker映像协调为可运行的多容器集群所需的一组基本步骤。如果您想要的只是一个两节点群集(默认选项用于其他所有内容),只需键入:

clusterdock_run ./bin/start_cluster CDH

运行此命令时,clusterdock将从存储在Docker Hub上的映像启动两个容器。由于它们包含完整的Cloudera Manager / CDH部署,因此首次下载映像可能需要五分钟以上的时间,但这是一次性的成本,因为映像然后由Docker本地缓存。在集群启动时,clusterdock通过Docker的网桥网络驱动程序管理容器之间的通信,还更新了主机的/ etc / hosts文件,以使其更轻松地连接到容器集群。

集群运行并验证CDH服务的运行状况后,您可以通过Cloudera Manager UI访问集群(地址和端口号显示在启动过程的结尾)。您还可以使用clusterdock_ssh函数直接SSH到群集的节点,其中参数是节点的标准域名。例如,运行:

clusterdock_ssh node-1.cluster

让我们进入一个shell,而无需处理在主机上设置SSH密钥的问题:

警告:将“ node-1.cluster,192.168.124.2”(RSA)永久添加到已知主机列表中。上次登录时间:2016年7月25日星期一11:11:36从192.168.124.1 [root @ node-1〜]#

高级用法

clusterdock支持许多选项,可以提供更有趣的测试环境。我们在以下各节中提供了一些示例,但是可以通过在调用start_cluster脚本中包括--help来查看完整的用法说明:

clusterdock_run ./bin/start_cluster --help

或cdh拓扑本身:

clusterdock_run ./bin/start_cluster cdh --help

更大的集群部署

如果您的计算机具有可用资源,clusterdock允许您启动n个节点大小的群集,其中一个节点充当CM服务器(并为其分配了大部分CDH服务角色),其余n-1个节点充当以下节点的辅助节点:分配给他们的大多数CDH从属服务。例如,要创建一个四节点CDH集群,其中的容器分别命名为node-1.testing,node-2.testing,node-3.testing和node-4.testing:

clusterdock_run ./bin/start_cluster -n testing cdh --primary-node=node-1 --secondary-nodes='node-{2..4}'

在这种情况下,集群CDH拓扑利用Cloudera Manager的主机模板功能将节点2上的角色分配到节点3和节点4。也就是说,只有两个映像,clusterdock允许任意大小的集群部署。 (同样,这是在单个主机上运行的完整群集,具有单个主机的资源。请小心!)

指定要包括(或排除)的服务

通过clusterdock CDH拓扑,您可以提供要包含在群集中的服务类型的列表。此功能使用--include-service-types选项,并从Cloudera Manager中删除列表中未包括的任何服务类型。例如,要创建仅包含HDFS,Apache ZooKeeper,Apache HBase和YARN的两节点群集:

clusterdock_run ./bin/start_cluster cdh --include-service-types = HDFS,ZOOKEEPER,HBASE,YARN

同样,--exclude-service-types选项可用于显式省略服务。要创建不包含Impala的四节点群集(machine-1.mycluster,machine-2.mycluster,machine-3.mycluster,machine-4.mycluster):

clusterdock_run ./bin/start_cluster -n mycluster cdh --primary-node = machine-1 --secondary-nodes =‘machine- {2..4}’--exclude-service-types = IMPALA

有关服务类型的完整列表,请参阅Cloudera Manager文档。

获得帮助

尽管单节点方法非常适合学习和扩展,但是适用于Docker的新Cloudera QuickStart也非常适合测试和开发。它提供了一种简便的方法来为新构想和用例制作原型,并尝试新功能和最新Cloudera版本。 (请记住,它既不打算也不支持用于生产用途。)

最后,我们很想知道您的想法。请在我们的社区论坛中发布所有反馈;我们希望听到积极的建议和建设性的建议,以改进未来。

有关其他信息,包括与该映像相关的许可协议,请参阅Cloudera的文档Cloudera的网站

推荐阅读更多精彩内容