一、Elastic Search概述:
1.1 Elastic Search 简介
Elastic Search(ES)是一个基于Lucene构建的开源、分布式、RESTFul接口全文搜索引擎。ES还是一个分布式文档库,其中每个字段均是被索引的 数据且可被搜索,它能够扩展至数以百计的服务器存贮以及处理PB级的数据,它可以在短时间内存储、搜索和分析大量的数据。
Elastic Search的主要特点
1.横向可扩展性。增加一台机器,只需要添加集群配置,启动Elastic Search进行即可;
2.分片机制。一个索引可以分成多个Sharding,提高处理效率;
3.高可用性。每个分片可以设置多个备份,少量机器宕机不影响正常使用;
1.1 Lucene简介
Lucene是Apache软件基金会中的一个开源代码的全文搜索引擎工具包,方便实现全文检索的功能。 Lucene是倒叙排序索引,即由属性的值来确定记录的位置,而不是由记录来确定属性值。
举例(转自:《Elasticsearch技术解析与实战》):
字典树采取trie树和DAT树,这部分待完善...
1.2 Lucene的核心结构:
Lucene将上面的三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件(positions)保存,其中词典文件保存了指向频率文件和文件位置的指针,通过指针可以找到该关键字的频率信息和位置信息。
总结socre评分有如下四个原则:
1.搜索词出现次数越多,得分越高;
2.搜索词在整个索引中出现次数越少,得分越高;
3.搜索字段中所有词语数量越少,得分越高;
4.搜索词和中的某一条数据匹配字段越多,得分越高。
1.3 ES的的术语说明:
Elastic Search和mysql的对应关系
MySql | Elastic Search |
---|---|
database | index |
table | type |
row | document |
cloumn | field |
schema | mapping |
index | Everything is indexed |
SQL | query DSL |
slect * from... | get http://... |
update talbe set... | put http://... |
二.集群内部结构
ES是主从模式设计
2.1 主节点(Master node)
主节点负责集群的相关操作,管理集群变更,且全局唯一,一般采用主节点和数据节点分离的部署架构。为防止数据丢失,每个主节点要知道哪些从节点有资格成为主节点的数量。
2.2 数据节点(Data node)
负责保存数据,执行数据相关的操作,一般情况下(特殊除外),数据读写只和数据节点交互,不会和主节点打交道。
当增加和删除节点时,即水平扩容,会触发rebalance操作。
数据的路由:
shard = hash(routing) % primary_shard_count
routing默认值是document_id的
2.3 预处理节点(ingest node,5.0版本引入)
在索引写入数据之前,通过事先定义好的processors和pipeline,对数据进行转换、富化。processors和pipeline拦截bulk和index请求,在应用相关操作后,将文档传回给index或bulk API。
2.4 协调节点(Coordinating node)
协调节点将请求转发给Data node,每个Data node在本地执行请求,并返回给协调节点,协调节点将每个Data node的结果收集、合并甚至排序为单个全局结果,因此协调节点需要较多的CPU和内存资源。
数据写入过程:
数据写入的consistency参数:
quorum(默认):
要求大部分的shard是活跃的,那么写入操作可执行。
quorum = int((primary_count+number_of_replica) /2 ) + 1
当quorum个数不够时,默认等待一分钟,如果一分钟内quorum个数仍然不够才不再执行。
one:
只要有一个primary shard是活跃的,那么写入操作可执行。
all:
当所有shard是活跃的(primary shard + replica shard),那么写入操作才可执行。
数据查询的timeout参数:
timeout机制,指定每个shard只能在timeout时间内(默认无timeout限制),将检索到的结果(可能只有一部分)返回给client,而不是等所有查询结果全部搜索出来再返回,避免搜索时间过长,影响用户体验。