Elasticsearch备份和还原(基于hdfs)

为什么

Elasticsearch以设置副本做到高可用,为什么还需要备份呢?

其实在实际的生产环境中,一般最终的结果数据都是要备份的,这样的做的目的,就是能够以最快的速度还原数据,找回数据。

Elasticsearch备份数据有很多选择,本地,Amazon S3, HDFS, Microsoft Azure, Google Cloud Storage这些都可以。我这里选择了hdfs,因为已经有现成的环境,还有就是hdfs就是一个分布式的存储系统,也是数据高可用的呀,只要集群不椡,数据依然完整。

操作步骤

第一步:需要注册快照存储库

第二步:才能进行创建快照

前期准备

ES 安装

从官网下载linux源码包 https://www.elastic.co/downloads/elasticsearch

curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.9.2-linux-x86_64.tar.gz
tar -xzvf elasticsearch-7.9.2-linux-x86_64.tar.gz
cd elasticsearch-7.9.2
./bin/elasticsearch

安装hdfs 插件

sudo bin/elasticsearch-plugin install repository-hdfs

重启ES

创建index (customer)和 document 用于备份,过程略。

HDFS 准备工作

创建备份的目录

$ hdfs dfs -mkdir /es_bak
$ hdfs dfs -chmod 777 /es_bak

确认active namenode

$ hdfs haadmin -getAllServiceState
cd-lab-hdp-master-0:8020 active
cd-lab-hdp-master-2:8020 standby

注册快照存储库

官方网址: https://www.elastic.co/guide/en/elasticsearch/plugins/7.10/repository-hdfs-config.html

PUT _snapshot/my_hdfs_repository
{
  "type": "hdfs",
  "settings": {
    "uri": "hdfs://namenode:8020/",
    "path": "elasticsearch/repositories/my_hdfs_repository",
    "conf.dfs.client.read.shortcircuit": "true"
  }
}

实例

$ curl -H "Content-Type: application/json" -XPUT localhost:9200/_snapshot/my_snapshot?pretty -d '
> {
>   "type": "hdfs",
>   "settings": {
>     "uri": "hdfs://cd-lab-hdp-master-0:8020/",
>     "path": "/es_bak",
>     "conf.dfs.client.read.shortcircuit": "true",
>     "conf.dfs.domain.socket.path": "/var/run/hdfs-sockets/dn"
>   }
> }'
{
  "acknowledged" : true
}

hdfs HA 的配置方法:

uri 需要提供 nameservice 名字,下面的例子中是 mycluster

curl -H "Content-Type: application/json" -XPUT localhost:9200/_snapshot/roy_snapshot?pretty -d '
{
    "type": "hdfs",
    "settings": {
        "uri": "hdfs://mycluster/",
        "path": "/es_bak",
        "conf.dfs.nameservices": "mycluster",
        "conf.dfs.ha.namenodes.mycluster": "nn1,nn2",
        "conf.dfs.namenode.rpc-address.mycluster.nn1": "cd-lab-hdp-master-0:8020",
        "conf.dfs.namenode.rpc-address.mycluster.nn2": "cd-lab-hdp-master-2:8020",
        "conf.dfs.client.failover.proxy.provider.mycluster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider",
        "conf.dfs.client.read.shortcircuit": "true",
        "conf.dfs.domain.socket.path": "/var/run/hdfs-sockets/dn"
    }
}'

检查

$ curl -H "Content-Type: application/json" localhost:9200/_snapshot/roy_snapshot?pretty
{
  "roy_snapshot" : {
    "type" : "hdfs",
    "settings" : {
      "path" : "/es_bak",
      "uri" : "hdfs://mycluster/",
      "conf" : {
        "dfs" : {
          "client" : {
            "failover" : {
              "proxy" : {
                "provider" : {
                  "mycluster" : "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
                }
              }
            },
            "read" : {
              "shortcircuit" : "true"
            }
          },
          "ha" : {
            "namenodes" : {
              "mycluster" : "nn1,nn2"
            }
          },
          "namenode" : {
            "rpc-address" : {
              "mycluster" : {
                "nn1" : "cd-lab-hdp-master-0:8020",
                "nn2" : "cd-lab-hdp-master-2:8020"
              }
            }
          },
          "domain" : {
            "socket" : {
              "path" : "/var/run/hdfs-sockets/dn"
            }
          },
          "nameservices" : "mycluster"
        }
      }
    }
  }
}

创建快照

官方网址:https://www.elastic.co/guide/en/elasticsearch/reference/current/snapshots-take-snapshot.html

使用格式:

PUT /_snapshot/<repository>/<snapshot>
POST /_snapshot/<repository>/<snapshot>

例子

$ curl -X PUT "localhost:9200/_snapshot/my_snapshot/snapshot_2?wait_for_completion=true&pretty" -H 'Content-Type: application/json' -d'
> {
>   "indices": "customer",
>   "ignore_unavailable": true,
>   "include_global_state": false,
>   "metadata": {
>     "taken_by": "Roy",
>     "taken_because": "backup before upgrading"
>   }
> }
> '
{
  "snapshot" : {
    "snapshot" : "snapshot_2",
    "uuid" : "fzjfDMzlTFu1ztAuNqPQlw",
    "version_id" : 7100199,
    "version" : "7.10.1",
    "indices" : [
      "customer"
    ],
    "data_streams" : [ ],
    "include_global_state" : false,
    "metadata" : {
      "taken_by" : "Roy",
      "taken_because" : "backup before upgrading"
    },
    "state" : "SUCCESS",
    "start_time" : "2020-12-11T03:08:43.903Z",
    "start_time_in_millis" : 1607656123903,
    "end_time" : "2020-12-11T03:08:44.304Z",
    "end_time_in_millis" : 1607656124304,
    "duration_in_millis" : 401,
    "failures" : [ ],
    "shards" : {
      "total" : 1,
      "failed" : 0,
      "successful" : 1
    }
  }
}

在HDFS 验证

$ hdfs dfs -ls /es_bak
Found 5 items
-rw-r--r--   3 ansible hdfs        438 2020-12-11 03:08 /es_bak/index-0
-rw-r--r--   3 ansible hdfs          8 2020-12-11 03:08 /es_bak/index.latest
drwxr-xr-x   - ansible hdfs          0 2020-12-11 03:08 /es_bak/indices
-rw-r--r--   3 ansible hdfs        234 2020-12-11 03:08 /es_bak/meta-fzjfDMzlTFu1ztAuNqPQlw.dat
-rw-r--r--   3 ansible hdfs        322 2020-12-11 03:08 /es_bak/snap-fzjfDMzlTFu1ztAuNqPQlw.dat
$ hadoop fs -ls /es_bak/indices
Found 1 items
drwxr-xr-x   - ansible hdfs          0 2020-12-11 03:08 /es_bak/indices/QuQ5jAsBQm6JXsy4vnFUsg

恢复数据

官网:https://www.elastic.co/guide/en/elasticsearch/reference/current/snapshots-restore-snapshot.html

还原语法

POST /_snapshot/my_backup/snapshot_1/_restore

先删除当前的index

curl -XDELETE 'localhost:9200/customer'

确认一下

curl 'localhost:9200/_cat/indices?v'

例子

$ curl -X POST "localhost:9200/_snapshot/my_snapshot/snapshot_2/_restore?pretty" -H 'Content-Type: application/json' -d'
> {
>   "indices": "customer",
>   "ignore_unavailable": true,
>   "include_global_state": false,
>   "rename_pattern": "index_(.+)",
>   "rename_replacement": "restored_index_$1",
>   "include_aliases": false
> }
> '
{
  "accepted" : true
}

再次查看,index 已经恢复了。

参考

https://www.cnblogs.com/zsql/p/13692734.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容