CentOS 7.4 安装 ceph 集群

一、环境

使用了3台虚拟机

IP 主机名 作用
192.168.0.101 master 管理、监控节点
192.168.0.102 slave1 slave1 节点
192.168.0.103 slave2 slave2 节点

查看每台机器的操作系统版本

$ cat /etc/redhat-release
CentOS Linux release 7.4.1708 (Core) 

Ceph要求必须是奇数个监控节点,而且最少3个(做实验1个也是可以的),ceph-adm是可选的,可以把ceph-adm放在monitor上,只不过把ceph-adm单独拿出来架构上看更清晰一些。当然也可以把mon放在 osd上,生产环境下是不推荐这样做的。

  • ADM 服务器硬件配置比较随意,只是用来操作和管理 Ceph;

  • MON 服务器1块硬盘用来安装操作系统;

  • OSD 服务器上用1块1GB的硬盘做Ceph存储,每个osd对应1块硬盘,每个osd需要1个Journal,所以1块硬盘需要1个Journal,如果多个硬盘的话,可以每个区分别对应一个osd硬盘的journal.

所有文件系统采用Ceph官方推荐的xfs,每台存储节点机器上都有一块独立的裸盘,用来挂载ceph分区

$ fdisk -l
磁盘 /dev/xvdf:10.7 GB
......

注意此时挂载的是裸盘,不要手贱去手动给他分区,我先分区后,带来后续很多问题,就让它裸在这里,不要动,后续脚本会自己分区的。

二、安装准备

需要在每个节点上修改host、源、关闭SELINUX、关闭防火墙、同步时间等操作,以下操作3节点都执行

1. 修改/etc/hosts

添加以下地址

192.168.0.101       master
192.168.0.102       slave1
192.168.0.103       slave2
1. 修改源

添加阿里云的ceph源

vim /etc/yum.repos.d/ceph.repo

添加

[ceph]
name=ceph
baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/x86_64/
gpgcheck=0
[ceph-noarch]
name=cephnoarch
baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/noarch/

gpgcheck=0
[ceph-source]
name=cephsource
baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/x86_64/
gpgcheck=0
[ceph-radosgw]
name=cephradosgw
baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/x86_64/
gpgcheck=0

更新缓存

$ yum makecache
2. 关闭 SELINUX

修改/etc/selinux/config,将enforcing改为disabled

$ sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
$ setenforce 0
3. 关闭iptables
$ service iptables stop
$ chkconfig iptables off
4. 同步时间
$ yum -y ntp
$ ntpdate asia.pool.ntp.org
5. 设置免密登录

设置master免密登录(以root身份)到slave1、slave2,以便执行远程安装。分别这三个节点上存储创建用户且 axida 赋予它root权限。

$ sudo useradd -d /home/axida  -m  axida
$ sudo passwd axida( 输入密码这里建议三台服务器密码设为一致)
//授予无密码sudo权限
$ echo "axida ALL = (root) NOPASSWD:ALL" >> /etc/sudoers.d/axida
$ sudo chmod 0440 /etc/sudoers.d/axida

允许无密码 SSH 登录 因为 ceph-deploy 不支持输入密码,你必须在管理节点上生成 SSH 密钥并把其公钥分发到各 Ceph 节点。 ceph-deploy 会尝试给初始 monitors 生成 SSH 密钥对。生成 SSH 密钥对,使用创建的用户不要用 sudo 或 root 。

$ ssh-keygen

一路Enter,提示 “Enter passphrase” 时,直接回车,口令为空即可。完成后生成id_rsa、id_rsa.pub两个文件。

传输公钥到各节点上

$ ssh-copy-id  axida@master
$ ssh-copy-id  axida@slave1
$ ssh-copy-id  axida@slave2

修改 ~/.ssh/config (若没有则创建),增加内容:

Host    master
    Hostname  master
    User      axida
    Port      22
    IdentityFile ~/.ssh/id_rsa

Host    slave1
    Hostname  slave1
    User      axida
    Port      22
    IdentityFile ~/.ssh/id_rsa

Host    slave2
    Hostname  slave2
    User      axida
    Port      22
    IdentityFile ~/.ssh/id_rsa

这是指定登录时候使用的用户名、密钥、端口等,以实现免密登录。

三、 部署

每个节点手动安装太麻烦,官网有ceph-deploy这个工具统一安装省时省力。我们只需要在master上操作就可以了。

1. 安装

登录到master:

$ yum install ceph-deploy -y
$ mkdir ~/ceph-cluster
$ cd ceph-cluster/

ceph-cluster是我们的工作目录,在这底下操作。

初始化集群,new命令是指定监控节点:

$ ceph-deploy new master

执行成功会在工作目录下生成ceph.conf,ceph.log,ceph.mon.keyring等文件。此时我们还要做个小修改。由于默认是3个osd节点,我们只有两个,等安装好之后会报一个节点有问题,所以需要修改配置,改为2个osd节点

$ echo "osd pool default size = 2"  >> ceph.conf
$ echo "osd max object name len = 256"  >> ceph.conf
$ echo "osd max object namespace len = 64"  >> ceph.conf

接下来3节点都安装,只要在master上执行如下命令,就可以远程安装另外两个节点:

$ ceph-deploy install master slave1 slave2

到这里就等吧,注意第一次登陆别的机器,会提示是否信任,输入yes就行了。没意外就这样输出

完毕!
ceph version 10.2.10 (5dc1e4c05cb68dbf62ae6fce3f0700e4654fdbbe)

也可用用命令

$ ceph -v
ceph version 10.2.10 (5dc1e4c05cb68dbf62ae6fce3f0700e4654fdbbe)

有报错就看文章末尾的问题总结。

安装完成后,开始配置。

2. 配置

初始化监控节点:

$ ceph-deploy mon create-initial

查看存储节点硬盘:

$ ceph-deploy disk list slave1

创建osd存储节点

创建slave1存储节点

擦除硬盘slave1上的/dev/xvdf,zap是重建分区表的命令,下面的zap命令慎用,会销毁磁盘中已经存在的分区表和数据

$ ceph-deploy disk zap slave1:/dev/xvdf

创建osd

$ ceph-deploy osd prepare slave1:/dev/xvdf

然后激活

$ ceph-deploy osd activate slave1:/dev/xvdf

激活这里不知道为什么,第一次执行报
error creating empty object store in /var/lib/ceph/tmp/mnt.M1u5pk: (28) No space left on device
但是再执行一次就成功了,先往下走吧。

这里我遇到个问题,在执行slave2的存储节点的时候,我手贱提前把/dev/xvdf这个盘用mkfs.xfs格式化了一下。结果,如果执行prepare报错,可能是因为之前已经有了GPT分区,不是裸盘。使用zap命令的时候,会在slave2上将设备/dev/xvdf格式化为GPT分区表格式的两个分区

$ ceph-deploy disk zap slave2:/dev/xvdf

可以在slave2上查看

$ fdisk -l /dev/xvdf
......
#         Start          End    Size  Type            Name
 1     10487808     20971486      5G  未知          ceph data
 2         2048     10487807      5G  未知          ceph journal

可以看到,zap命令创建了data和journal两个分区。于是在slave2上的执行发生了变化。

创建osd,不能指定/dev/xvdf了,我们的osd必须挂载到某个分区上,这里我用的是/dev/xvdf2

$ ceph-deploy osd prepare slave1:/dev/xvdf2

到slave2上查询分区结果

$ lsblk
NAME              MAJ:MIN  RM  SIZE RO TYPE MOUNTPOINT
xvda              202:0     0   30G  0 disk 
├─xvda1           202:1     0  500M  0 part /boot
├─xvda2           202:2     0  820M  0 part 
└─xvda3           202:3     0 28.7G  0 part /
xvdf              202:80    0   10G  0 disk 
├─xvdf1           202:81    0    5G  0 part
└─xvdf2           202:82    0    5G  0 part /var/lib/ceph/osd/ceph-0
xvdt              202:4864  0  100G  0 disk 
└─data_vg-data_lv 253:0     0 97.7G  0 lvm  /data

可以看到ceph分区挂载到了xvdf2上了

然后激活

$ ceph-deploy osd activate slave1:/dev/xvdf2

这个问题我也很苦恼,不知道怎么解决,就是因为提前格式化了一次,而不是保持为裸盘。使用如下命令清理了slave2上的/dev/xvdf盘,让它变成裸盘
清理已经被格式化成GPT格式的设备

dd if=/dev/zero of=/dev/xvdf bs=512 count=1

照理说应该没有之前格式化的影响了,但是没有效果,还是要指定/dev/xvdf2,不知道读者有什么好的办法,能让slave2向slave1的方式靠齐。

好吧,先不管了,暂时能用。最后,我们把生成的配置文件从master同步部署到其他几个节点,使得每个节点的ceph配置一致:

$ ceph-deploy --overwrite-conf admin master slave1 slave2

测试

看一下配置成功了没?

$ ceph health
HEALTH_OK

如果pool设置失败的话可以删除掉重新添加即可。

更详细一点:

[root@master ceph-cluster]# ceph -s
    cluster 38a7726b-6018-41f4-83c2-911b325116df
     health HEALTH_OK
     monmap e1: 1 mons at {ceph-mon=192.168.128.131:6789/0}
            election epoch 2, quorum 0 ceph-mon
     osdmap e46: 8 osds: 8 up, 8 in
      pgmap v72: 256 pgs, 1 pools, 0 bytes data, 0 objects
            276 MB used, 159 GB / 159 GB avail
                 256 active+clean

部署过程中如果出现任何奇怪的问题无法解决,可以简单的删除一切从头再来:

$ ceph-deploy purge master slave1 slave2
$ ceph-deploy purgedata master slave1 slave2
$ ceph-deploy forgetkeys

如果要用命令行管理服务启动、关闭等,使用如下

$ systemctl start ceph-mon.target
$ systemctl stop ceph-mon.target
$ systemctl start ceph-osd.target
$ systemctl stop ceph-osd.target
$ systemctl start ceph.target
$ systemctl stop ceph.target

设置开机启动

$ systemctl enable ceph-mon.target
$ systemctl enable ceph-osd.target
$ systemctl enable ceph.target 

查看磁盘树

$ ceph osd tree
ID WEIGHT  TYPE NAME                                  UP/DOWN REWEIGHT PRIMARY-AFFINITY 
-1 0.00980 root default                                                                 
-2 0.00490     host slave1                                   
 0 0.00490         osd.0                                   up  1.00000          1.00000 
-3 0.00490     host slave2                                   
 1 0.00490         osd.1                                   up  1.00000          1.00000

验证Ceph

当显示状态健康时,可写入数据并查看数据。
创建一个普通文本文件testfile.txt,并向其写入数据。

$ echo "hello liberalman" > testfile.txt

创建一个pool。格式为:rados mkpool {pool-name},执行:

$ rados mkpool data
successfully created pool data

将文件写入pool。格式为:rados put {object-name} {file-path} –pool={pool-name},执行:

$ rados put test-object-1 testfile.txt --pool=data

如果文件不大,应该很快就写完并成功了。如果卡主较长时间,则可能是出错了,需要排查问题。
查看文件是否存在于pool中,格式为:rados -p {pool-name} ls,执行:

$ rados -p data ls
test-object-1

确定文件的位置。格式为:ceph osd map {pool-name} {object-name},执行:

$ ceph osd map data test-object-1
osdmap e13 pool 'data' (1) object 'test-object-1' -> pg 1.74dc35e2 (1.2) -> up ([1,0], p1) acting ([1,0], p1)

从pool中读取文件。格式为:rados get {object-name} –pool={pool-name} {file-path} ,执行:

$ rados get test-object-1 --pool=data myfile

当前目录下读出一个myfile。可比对myfile和原文件testfile.txt是否相同

$ diff myfile testfile.txt

发现没有区别,是一样的文件。

从pool中删除文件。格式为:rados rm {object-name} –pool={pool-name},执行:

$ rados rm test-object-1 --pool=data

遇到问题

1.
[d-awsbj-sqe-kubernetes-1514262171][WARNIN] No data was received after 300 seconds, disconnecting...
[d-awsbj-sqe-kubernetes-1514262171][INFO  ] Running command: sudo ceph --version
......

到目标机器上查看,发现yum命令锁死了,一直有个yum的进程存在,但是安装ceph包没安装成功,导致等待300s后调用ceph命令找不到。原来这台机器yum很慢,官方源下载龟速,还掉线。我手动将进程全部杀了,修改源为阿里云的源,然后直接在该机器上执行 yum -y install ceph ceph-radosgw 重新安装好之后,再回master执行ceph_deploy。还发现ceph-deploy竟然会自动把我配置的阿里云的源替换成ceph官网的源,看来只能手动执行yum安装了。

2.

如果出现任何网络问题,首先确认节点可以互相无密码ssh,各个节点的防火墙已关闭或加入规则

3. HostNotFound

其实不是找不到域名,而是ssh访问失败了,可能是网络不通、密钥认证不通过,所以好好检查想自己ssh免密登录那块做对了没有。

4. connection detected need for sudo

打开/etc/sudoers,注释掉原来的规则,改成对我们的用户ceph,不做检查

#Defaults    requiretty
Defaults:ceph !requiretty
5. 64 pgs undersized

$ ceph health
HEALTH_WARN 64 pgs degraded; 64 pgs stuck degraded; 64 pgs stuck unclean; 64 pgs stuck undersized; 64 pgs undersized

是因为配置中默认osd=3,备份=2,与实际不符,更改配置文件ceph.conf,增加以下两行:

osd_pool_default_size = 2
osd_pool_default_min_size = 1

(不过没有生效,怀疑需要重启集群,待测试),或者添加一个osd节点(有些说法是要最少3个osd)

出现HEALTH_WARN,先查看一下rbd的大小,如果osd数目小于这个数字,就会出错,所以需要手动将数量设置为与目前osd个数相同。

$ ceph osd pool get rbd size
$ ceph osd pool set rbd size 1
$ ceph osd pool set rbd min_size 1

问题1:ceph-deploy部署的方式。就算我3个osd装在两台机器上,osd pool default size还是要设置为2,才行,不然还是会提示 degraded; pgs stuck unclean

$ ceph osd pool set rbd size 2

然后

$ ceph health
HEALTH_OK

答案1:因为ceph deploy 默认吧osd 设置在同一个bucket下面,而ceph算法规则默认将不同的备份数分发到不同的不同的bucket下,所以ceph认为你的bucket少于你的备份 数从而报这个错。要避免这个问题可以手动部署ceph不用cephdeploy,或者手动去修改

由于做试验的时候,使用的机器台数不同,以及osd数量不同,会出现,HEALTH_WARN pgs degraded,undersized 等警告,这个时候需要调整池子的大小,size,min_size.

特别是单机安装的时候,容易出现这种错误。

ceph的进程:

这三种进程分布于集群中的服务器上,服务器中可以只运行一种,也可以多个同时运行,推荐为一个服务器运行一种,使得负载均衡

  • osd 守护进程:即为存储守护进程
  • mon 守护进程:监视器守护进程
  • mds 守护进程:元数据守护进程

查看本机上运行那些ceph进程

$ ps  aux |grep ceph

ceph的文件:

可以在配置文件中修改位置

  • 配置文件:默认 /etc/ceph/ceph.conf
  • 日志文件:默认 /var/log/ceph
  • 运行时文件:默认 /var/run/ceph

每个进程的管理套接字位置:/var/run/ceph/cluster-name.asok

使用管理套接字查看osd.0的运行时配置信息:

$ ceph --admin-daemon /var/run/ceph/ceph-osd.0.asok config show | less

配置文件ceph.conf

集群启动后,每个守护进程从配置文件 /etc/ceph/ceph.conf中查看配置信息

[ global ]
#该配置下设置应用于所有ceph守护进程
[ osd ]
#该配置下设置应用于所有osd守护进程
#或者重写global配置
[ osd.0 ]
#该配置设置应用于osd 0进程,或者重写前面配置
[ mon ]
#该配置应用于所有监视器进程
[ mds ]
#该配置应用于所有元数据服务进程

查看pool,默认rbd

$ ceph osd pool ls
rbd

需要注意, pg_num只能增加, 不能缩小.
ceph osd pool set rbd pg_num 64
Error EEXIST: specified pg_num 64 <= current 128

There are unfinished transactions remaining. You might consider running yum-complete-transaction, or "yum-complete-transaction --cleanup-only" and "yum history redo last", first to finish them. If those don't work you'll have to try removing/installing packages by hand (maybe package-cleanup can help).

清除yum缓存
yum clean all
清理未完成的yum事物
yum-complete-transaction --cleanup-only

这就说明ceph-deploy工具能够自动的去分区,而不需要我们先分区,之前我因为先分区,执行
[root@sqh0 cluster]# ceph-deploy osd prepare sqh0:/dev/sdb1
但后面会报诸多错误。请一定要谨慎应对。另外通过执行结果我们也可以看到/var/lib/ceph/osd/ceph-0已经初始化到了/dev/sdb1这个分区上了,下面我们需要命令去激活这个osd就行了。

http://blog.csdn.net/styshoo/article/details/55471132

http://blog.csdn.net/lk142500/article/details/77880386

推荐阅读更多精彩内容

  • 一、概述 Ceph是一个分布式存储系统,诞生于2004年,最早致力于开发下一代高性能分布式文件系统的项目。随着云计...
    魏镇坪阅读 44,304评论 3 54
  • 集群管理 每次用命令启动、重启、停止Ceph守护进程(或整个集群)时,必须指定至少一个选项和一个命令,还可能要指定...
    Arteezy_Xie阅读 11,466评论 0 18
  • ceph简介 Ceph是一个分布式存储系统,诞生于2004年,是最早致力于开发下一代高性能分布式文件系统的项目。随...
    爱吃土豆的程序猿阅读 4,441评论 0 21
  • 概述 Ceph是一个分布式存储系统,诞生于2004年,最早致力于开发下一代高性能分布式文件系统的项目。随着云计算的...
    梅_苇名一心阅读 2,624评论 0 6
  • 今夜 我们思考死亡; 明早 我们思考生存
    灰原_阅读 44评论 0 0