clickhouse distribute 引擎深度解读


什么是分发引擎?

分发引擎在业务用来建立all表时使用。

all表的概念可以理解为一个视图。

在all表上读数据时CH数据流程如下:

1.分发SQL到对应多个shard上执行SQL

2.执行SQL后的数据的中间结果发送到主server上

3.数据再次汇总过滤。

如下图所示:


what happened when reading from distributed table


what happened when reading from distributed table

在各shard执行SQL是自动且并行化的,无需参数配置或手动干预。读数时随机选择某个shard的replica进行读书。如果表有索引优先使用索引。

分布式引擎接受参数有:服务器配置文件中的集群名称,远程数据库的名称,远程表的名称以及(可选)分片键。例:


Distributed(logs, default, hits[, sharding_key])

以上面的建表引擎作为例子。

参数说明:

logs : 服务器配置文件中的群集名称。rpm包装好后的配置文件在/etc/clickhouse-server/config.xml

default: 库名,也可以使用常量表达式来代替数据库名称,如currentDatabase()

hits:表名

sharding_key:路由算法

上面引擎的隐喻是:定位logs集群,从位于群集中每个服务器上的“default.hits”表中读取数据。数据将在远程服务器部分处理。例如,对于使用GROUP BY的查询,将在远程服务器上聚合数据,聚合函数的中间状态将发送到请求者服务器。数据将会进一步聚合。

配置信息详解

cluster logs的配置文件

这个配置文件一般叫做metrika.xml,当然你也可以给这个文件自定义一个名字,但是别忘了在主config.xml中通过include_from标签包含进去。否则,服务会报找不到cluster的错误。metrika.xml 文件中一般存集群配置、ZK配置、分片配置等。

这个配置文件告诉我们说:

我定义了一个名字为"logs"的集群,由两个shard(分片)组成,每个shard包含两个副本。其中shard的概念,是指包含不同数据部分的服务器(所有Shard上的数据加起来是整个数据集)。副本是复制服务器(可以访问任何副本上的数据,副本是主主复制)。

对每个服务器来说,有两个强制参数(host,port),两个可选参数(user,password)。

host: 远程服务器的主机地址。可以指定为域名、IPv4或IPv6地址。如果指定域,服务器将在启动时执行DNS查找。如果DNS请求失败,服务器将无法启动。如果修改了DNS记录,请重新启动服务器以使新记录生效。

port:服务器之间通信的TCP端口(配置文件中的tcp_port,默认是9000)

user:连接到远程服务器的用户名称。默认情况下,用户是“default”。此用户必须具有连接到远程服务器的访问权限。在users.xml配置文件访问权限的管理。

password:以明文登录到远程服务器的密码。默认为空字符串。

当一个读取的sql落到一个shard上时,分片将选择一个可用副本。当然你也可以通过配置负载均衡算法(副本访问的优先级,参阅‘load_balancing’设置)。如果与服务器的连接没有建立成功,则在短暂超时后继续尝试连接。如果连接失败,下一个副本将被选中,以此类推。如果所有副本的连接尝试失败,会以相同的方式重复几次尝试。与此同时,远程服务器仍然会接受连接,但大概率不能正常提供服务。

在写配置文件的时候,你可以只写一个分片,这时候就没有分发的概念了,因为所有的数据都将落在这一个shard上。你也可以搞N个分片,每个分片搞N个副本。每个分片的副本数量可以不同。

你也可以在配置文件中配任意数量的cluster。

查看集群

查看我当前有几个集群,运行命令:

show cluster command

分发引擎让你使用起来就好像在用本地服务器(其实它已经在分布式的工作了)。注意,群集是不可扩展的:必须将其配置写入每个服务器的配置文件。

不支持查看其他分布式表的Distributed表(除非分布式表只有一个分片)。作为替代方法,使分布式表查看“最终”表。

分发引擎需要编写集群配置文件。修改后的配置的可热更新,不需要重新启动服务器。如果需要每次都向未知的分片和副本发送查询,无需创建分布式表,推荐使用“远程”表格功能。请参阅“table functions”。

有两种将数据写入集群的方法:

1. 你想往哪些服务器写哪些数据,直接通过分片去写入。

2.通过distributed表灌数,引擎将通过sharding key (最后一个参数,必须指定)算法分散数据落到不同的服务器上。如果只有一个分片的情况下,无需指定sharding key。

每个分片都可以在配置文件中定义一个权重。默认情况下,权重等于1。数据以与分片权重成正比的量分布在分片上。例如,如果有两个分片,第一个的权重是9,第二个的权重是10,则第一个将存放9/19数据集,第二个将存放10/19。

每个分片都可以在配置文件中定义“internal_replication”参数。如果此参数设置为“true”,则写入操作会选择第一个健康的replica并向其写入数据。然后各个replica之间通过zookeeper自动同步数据,类似于replicated表的数据同步模式。如果它设置为'false'(默认),数据将被写入所有副本。实质上,这意味着Distributed表本身复制数据。这比使用复制表要糟糕,因为副本的一致性未被检查,并且随着时间的推移,它们的数据会存在部分不一致的情况。

分片表达式(sharding key)

分析分片的表达式(sharding key)用来决定将数据写入到哪个分片。

最后一项sharding_key是可选的,可以是一个表达式,例如rand(),可以是一列 例如user_id,(integer类型),通过对余数值进行取余分片,(rand()函数返回值/shards总权重)【这有个好处就是特定的Userid会落到特定的分片上,从而简化了用户的in和join操作】。如果担心分片数据不均匀,也可以加上hash函数,如intHash64(user_id)

假设现在来了一条数据,这条数据要写到哪个分片呢?我们来看看这里的算法实现。

首先假设我们有3个分片,权重分别是9,10,11。

3个shard分割出如下3个权重空间[0,9);[9,19);[19,30]。其中,第一个shard拥有第一个权重空间,第二个shard拥有第二个权重空间,第3个shard拥有第三个权重空间。

权重空间分割的计算方式:[prev_weight,pre_weights+weight) ... 其中,prev_weights是最左分片权重的总和,weight表示当前shard权重,示例如上。

现在来了一条待写入的row,我们看看写入时发生了什么?

1.sharding key表达式先被解析,假定sharding key表达式是rand()函数,函数返回值是43。

2.函数返回值/shards权重总和=43/(9+10+11) = 13

3.查找13属于范围[9,19),这个权重空间属于第二个shard,于是,数据将落到第二个shard上。

对于sharding key的选择来说,划分的一个简单的余数(rand算法)是分片的有限解决方案,并不总是合适的。它适用于大中型数据(数十台服务器),但不适用于大量数据(数百台服务器或更多)。在后一种情况下,使用主题区域所需的分片方案,不建议使用distribute表中的条目。

当使用复制表格时,可以复制数据 - 查看“resharding”部分。但在许多情况下,最好不要这样做。SELECT查询被发送到所有的分片,并且无论数据如何分布在分片上(它们可以完全随机地分配),都可以工作。当你添加一个新的分片时,可以给这个shard配一个较重的权重 - 数据会有一部分落到这个shard上,这导致整体cluster的数据分布稍微不均匀,但不会影响正常查询。

分片方案

在以下场景,应该关注设计分片方案:

 - 使用查询需要通过特定的键来连接数据(IN或JOIN)。如果数据被这个键分割,你可以使用本地IN或JOIN而不是GLOBAL IN或GLOBAL JOIN,这样更有效率。 

- 使用大量的服务器(数百个或更多)以及大量的小型查询(来自各个不同个体的客户端 、 网站,广告商或合作伙伴)。为了使小型查询不影响整个集群,在单个分片上定位单个客户端的数据是很有意义的。或者,正如我们在Yandex.Metrica中所做的那样,您可以设置双层分片:将整个集群划分为“层”,其中一个层可以由多个分片组成。单个客户端的数据位于单个图层上,但是可以根据需要将分片添加到图层中,在他们内部分发。为每个层创建分布式表,并为全局查询创建一个共享的分布式表。(听上去很高大上,这对提供大数据的基础服务提供了一点儿新思路)

数据是异步写入的。对于分配给表的INSERT ,数据块只写入本地文件系统。数据尽快发送到后台的远程服务器。你应该通过检查表目录/var/lib/clickhouse/data/database/table /中的文件列表(等待发送的数据)来检查数据是否成功发送。

如果服务器在INSERT到Distributed表之后宕机或重启(例如,在设备出现故障后),插入的数据可能会丢失。如果在表目录中检测到损坏的数据部分,则将其转移到“已损坏”的子目录中,不再使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容

  • 目录;(一) 拆分实施策略和示例演示(二) 全局主键生成策略(三) 关于使用框架还是自主开发以及sharding实...
    linking12阅读 10,339评论 1 52
  • Sharding的基本思想其实就是采用分治的思想,要把一个数据库切分成多个部分放到不同的数据库(server)上,...
    jiangmo阅读 9,256评论 0 7
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,100评论 18 139
  • 1、平台无关性 Java属于目标代码级平台无关语言类型,主要靠Java虚拟机JVM来实现。对高级语言的翻译方式有解...
    Megatron9527阅读 448评论 0 0
  • 那次公园长谈之后,知道了李薇做小三儿也是迫不得已,我对她由最初的嫌弃、远离渐渐又多出一些同情。 但对她的言谈举止和...
    c34d5a414b92阅读 258评论 0 2