Apache sentry架构分析-(与hive、hdfs集成)

Why was I born with such contemporaries. -- 王尔德
Just For M

前言

Apache Sentry是Cloudera公司发布的一个Hadoop开源组件，它提供了细粒度级、基于角色的授权以及多租户的管理模式。类似的安全管理框架还有Hortonworks公司开源的Apache Ranger。

通过引进Sentry，Hadoop目前可在以下方面满足企业和政府用户的RBAC需求：

安全授权：Sentry可以控制数据访问，并对已通过验证的用户提供数据访问特权。
细粒度访问控制：Sentry支持细粒度的Hadoop数据和元数据访问控制。在Hive和Impala中Sentry的发行版本中，Sentry在服务器、数据库、表和视图范围提供了不同特权级别的访问控制，包括查找、插入等，允许管理员使用视图限制对行或列的访问。管理员也可以通过Sentry和带选择语句的视图或UDF，根据需要在文件内屏蔽数据。
基于角色的管理：Sentry通过基于角色的授权简化了管理，你可以轻易将访问同一数据集的不同特权级别授予多个组。
多租户管理：Sentry允许为委派给不同管理员的不同数据集设置权限。在Hive/Impala的情况下，Sentry可以在数据库/schema级别进行权限管理。
统一平台：Sentry为确保数据安全，提供了一个统一平台，使用现有的Hadoop Kerberos实现安全认证。同时，通过Hive或Impala访问数据时可以使用同样的Sentry协议。

我司目前的大数据平台是CDH发行版v5.7.1，Senrty组件版本为v1.5.2，在我们将Hive和Impala纳入到Sentry的权限管控之后，Hive在HDFS上的WareHouse目录统一使用了Hive这个用户进行管理，鉴权的过程在HiveServer2提交任务之前进行。但是，这对于Spark或者Flink操作Hive表数据(直接从HDFS上操作数据)不免带来了权限问题，我们必须手动去HDFS为库表相应目录设置ACLs权限，才能让应用成功读取到数据。这实际上是很不利于管理的。

当然，Sentry也是提供了HDFS Sync Plugin，作用是可以将Sentry上面相应的权限同步到HDFS的ACLs中，可以很好的解决执行Spark应用的难题。但是，由于工程架构设计上的问题，v1.5.2开启了HDFS Sync之后,是不支持Sentry HA和Hive Metastore HA的，这次生产环境上还是要承受风险的。v1.8.0 Sentry团队重新设计了工程架构，可以支持 Sentry HA和Hive Metastore HA。

本文将分别阐述这两个版本整体架构，重点说明在开启HDFS Sync之后为什么前个版本不支持HA的缘由。

鸟瞰图

image.png

从上面的鸟瞰图，我们看出Sentry接入各个组件的模式，Sentry会启动常驻的Thrift服务，元数据中存储着库/表/路径和Role、Role和Group等之间的映射关系。Hive等组件通过Sentry提供的客户端和Thrift服务进行通信，用于鉴权和赋权。

让我们再将上图具体化一些：

image.png

Binding实现了对不同的查询引擎授权，Sentry将自己的Hook函数插入到各SQL引擎的编译、执行的不同阶段。这些Hook函数起两大作用：一是起过滤器的作用，只放行具有相应数据对象访问权限的SQL查询；二是起授权接管的作用，使用了Sentry之后，grant/revoke管理的权限完全被Sentry接管，grant/revoke的执行也完全在Sentry中实现；对于所有引擎的授权信息也存储在由Sentry设定的统一的数据库中。这样所有引擎的权限就实现了集中管理。
Policy Engine判定从Binding层获取的输入的权限要求与服务提供层已保存的权限描述是否匹配。
Policy Provider负责从数据库中读取出原先设定的访问权限。

Sentry接管HS2服务

从上节我们可以知道，Sentry要想对HS2上的操作进行权限管控，需要将自己的相应的Hook添加到操作的相应节点中。Hive的代码相对来说是写的比较优雅的，在用户可能需要扩展Hook的位置，都写好了相应配置点:

HIVE_SERVER2_SESSION_HOOK:

  // execute session hooks
  private void executeSessionHooks(HiveSession session) throws   Exception {
    List<HiveSessionHook> sessionHooks = new   HooksLoader(hiveConf).getHooks(HiveConf.ConfVars.HIVE_SERVE  R2_SESSION_HOOK);
    for (HiveSessionHook sessionHook : sessionHooks) {
      sessionHook.run(new HiveSessionHookContextImpl(session));
    }
  }

SEMANTIC_ANALYZER_HOOK:

   // Do semantic analysis and plan generation
   if (saHooks != null && !saHooks.isEmpty()) {
     HiveSemanticAnalyzerHookContext hookCtx = new HiveSemanticAnalyzerHookContextImpl();
     hookCtx.setConf(conf);
     hookCtx.setUserName(userName);
     hookCtx.setIpAddress(SessionState.get().getUserIpAddress());
     hookCtx.setCommand(command);
     for (HiveSemanticAnalyzerHook hook : saHooks) {
       tree = hook.preAnalyze(hookCtx, tree);
     }
     sem.analyze(tree, ctx);
     hookCtx.update(sem);
     for (HiveSemanticAnalyzerHook hook : saHooks) {
       hook.postAnalyze(hookCtx, sem.getAllRootTasks());
     }
   } else {
     sem.analyze(tree, ctx);
   }

Snetry接管HS2的权限之后，我们应该在HS2做到以下两点：

鉴权：对于需要执行的SQL操作，我们应该判断提交的用户对于相应的库/表/路径有相对应的权限。
更改权限：对于管理员用户，我们可以在HS2上执行的赋权或者销毁权限的操作，要同步到Sentry服务上。

HS2-鉴权

HS2会为每一个connect的用户创建一个独有的Session，我们为每个Session添加上我们的属于我们Sentry的Hook -HiveAuthzBindingSessionHook
在这个Binding Hook中做了这么几件事:

挂上SEMANTIC_ANALYZER_HOOK - HiveAuthzBindingHook,为下面从这个Session提交的SQL进行鉴权做准备；
设置命令白名单；
管控创建的文件/目录的权限为700；
记录当前Session的执行用户，以便鉴权的时候使用。

image.png

当该Session提交了一个SQL执行，在对SQL解析的过程中，Driver的compile阶段会调用我们在上一步挂上去的钩子SEMANTIC_ANALYZER_HOOK - HiveAuthzBindingHook，它主要的功能就是根据AstNode的解析树，探测到操作的表/库/路径以及动作，HiveAuthzBindingHook会去与Sentry服务器通信，校验该用户的行为是否在权限范围内。如果在，继续执行；如果不在，停止执行，抛出异常信息。

HS2-更改权限

管理员可以通过HS2进行对库/表/路径赋权，这部分的信息我们需要保存到Sentry元数据中。

Hive提供可扩展的 HIVE_AUTHORIZATION_TASK_FACTORY，Sentry提供自己的定义类 - SentryHiveAuthorizationTaskFactoryImpl，其作用就接管权限管理的任务，将权限的关系保存到Sentry的元数据库中。

image.png

Sentry HA & HS2 HA

我们可以看到，在Sentry接管HS2的权限的系统中，我们查询的是Sentry数据库中的权限信息，更改的也是Sentry数据库中的权限信息，所以Sentry服务在这里是无状态的，可以支持Sentry HA，部署多台Sentry服务用于负载均衡。

Sentry开启HDFS Sync

为了同步Sentry与HDFS ACLs的权限，这里有几个知识点需要注意：

我们需要从Metastore中获取库/表和具体的WareHouse对应关系；
如果使用我们的权限覆盖HDFS原生的ACLs，同时当我们撤销
HDFS Sync不应该影响原有的ACLs。

自定义Hadoop ACL

当集群开启dfs.namenode.acls.enabled之后，我们使用setfacl就可以设置ACLs，使用getfacl就可以获得相应目录的ACLs。我们如果能捋顺它的ACLs方式，我们就可以自己的ACL信息替代原有的。

命令行命令getfacl调用客户端getAclStatus方法获取ACL状态；

NameNode收到请求之后，会调用INode的readINodeAcl，得到ACL列表返回。

  public static List<AclEntry> readINodeAcl(INodeAttributes   inodeAttr) {
    AclFeature f = inodeAttr.getAclFeature();
    return getEntriesFromAclFeature(f);
  }

我们已经找到了我们可以扩展的着力点了，hadoop2.7.1以后提供了友好的INodeAttributeProvider供我们扩展，有兴趣的可以参考网上的文章自定义Hadoop ACL

我们平台目前的版本是2.6.1还没有对应的接口，但是CDH深度定制了自己的代码，以实现想要的功能。

设计了AuthorizationProvider，外放了Provider，用户可配置。
改变类INodeWithAdditionalFields的接口，使其使用上层Provider的结果。

  public final AclFeature getAclFeature(int snapshotId) {
    return AuthorizationProvider.get().getAclFeature(this, snapshotId);
  }

我们只要在继承AuthorizationProvider的自己的扩展类中实现逻辑即可。
注意，我们并没有更新sefacl的逻辑，所以sefacl的结果会固化到NameNode中，但是我们可以改变getfacl，这很重要。因为HDFS系统中实际上是根据这个逻辑权限管控的。

我们现在可以知道，要实现HDFS Sync要做的将Metastore中表/库与Path的对应关系、Sentry元数据中表/库/路径与Role的权限关系推到我们的AuthorizationProvider中，这样我们的权限实际上就同步了。
，Sentry提供的AuthorizationProvider - SentryAuthorizationProvider并不会持久化掉我们的Sentry权限信息，而是缓存在NameNode中，但是如何去同步这个信息，产生了两个工程框架思路，也就产生了我们本问要讲的信息。

Sentry1.5.2的HDFS Sync实现

image.png

HDFS Sync实际上可以拆成两个同步问题:

Metastore包含我们Sentry服务启动之前就已经存在的映射数据，我们称之为快照数据，这部分数据我们Sentry服务初始化的时候一次性获取过来；Metastore是在不断的处理请求的，这里的数据，我们称之为增量数据，这部分数据我们需要增量的同步到我们的Sentry服务中；
NameNode也要增量的从Sentry服务器中获取信息，更新自己的缓存。

低版本的Hive Metastore提供了事件监听回调机制，Sentry在Metastore上设置了回调类SentryMetastorePostEventListener，当有更新请求打到Metastore，Metastore会调用Sentry Client将增量数据推到Sentry服务上。

CDH版本的hadoop源码在NameNode启动的时候，自启动了一个线程定时向Sentry服务同步上数据，增量数据使用递增的唯一ID，用来判断NameNode是否已经同步了所有的增量信息。

Sentry1.5.2的HA分析

基于以下天然设计：

我们的增量事件是有序的；
增量事件是由Metastore推到Sentry上去的；
Sentry的这部分信息是缓存，没有持久化；
决定了没办法支持Metastore HA和Sentry HA

如果HA，会导致:

每个Metastore都都发送增量事件，它们的顺序id，目前没办法做到唯一递增；
每个Sentry服务的缓存Cache不一致；

所以，很遗憾，Sentry1.5.2开启了HDFS Sync之后没办法支持Metastore HA和Sentry HA。

Sentry1.8.0的HDFS Sync实现

针对上面的分析，要解决Sentry设计上的缺陷其实也不难：

针对Sentry Cache产生的HA问题，我们可以持久化到一个共享的数据存储中，这样就能保证多个Sentry服务读取的信息是一致的了，NameNode连接到任何一个Sentry服务节点上是等效的，实现上又恢复了Sentry服务的无状态性；
解决多个Metastore的id问题，并且保证顺序存储也可以解决Metastore HA的问题。

针对 Metastore HA产生的增量事件顺序紊乱的情况，新版的Hive Metastore提供了获取NotificationEventId的API，并且可以根据事件Id，获取相应的事件，所以问题二已经天然解决。

image.png

上图是Sentry1.8.0以上的架构图，不同时刻的全量快照和增量事件被保存到Sentry的DB中，这样不管NameNode连接到哪一台都可以获取到相同的信息，我们在工程需要做的事情包括:

应该只有一台Sentry服务去连接Metastore上去拉取增量数据或者全量数据；
应该只有一台Sentry服务可以将获取的信息保存到DB中。

为了实现这一的要求，Sentry1.8.0借助Zookeeper来选择执行上述操作的Leader服务，一旦Leader服务挂掉之后，会有一台Follower变成Leader进行上述同步Metastore中的数据的操作。

Sentry1.8.0的HA分析

通过上面的实现架构变更，已经很好的实现了在HDFS Sync开启的状态下Metastore HA和Sentry HA。

最后编辑于：2017.12.10 14:33:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,444评论 4赞 365
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,867评论 1赞 298
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 110,157评论 0赞 248
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,312评论 0赞 214
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,673评论 3赞 289
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,802评论 1赞 223
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,010评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,743评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,470评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,696评论 2赞 250
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,187评论 1赞 262
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,538评论 3赞 258
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,188评论 3赞 240
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,127评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,902评论 0赞 198
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,889评论 2赞 283
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,741评论 2赞 274

Apache sentry架构分析-(与hive、hdfs集成)

前言

鸟瞰图

Sentry接管HS2服务

HS2-鉴权

HS2-更改权限

Sentry HA & HS2 HA

Sentry开启HDFS Sync

自定义Hadoop ACL

Sentry1.5.2的HDFS Sync实现

Sentry1.5.2的HA分析

Sentry1.8.0的HDFS Sync实现

Sentry1.8.0的HA分析

推荐阅读更多精彩内容