使用Data Lake搭建HDInsight集群

96
Kele_73b1
2019.04.04 00:02 字数 366

前不久我们的Azure Data Lake在Mooncake也已经上线了,想要使用数据湖搭建HDInsight大数据集群的同学们可以尝试起来了。

大家知道我们的Data Lake是有了POSIX权限支持,首先我们要创建一个User Assigned Managed Identity,用来给HDInsight集群访问 Azure Data Lake Gen2 中的文件。下面两图为如何创建User Assigned Managed Identity.

User Assigned Managed Identity - 1/2

User Assigned Managed Identity - 2/2

接下来我们开始创建Storage Account,下图是创建Storage Account的界面,第一步和创建普通的Storage account没有什么区别,按图选好选项点下一步Next: Advanced


创建Storage Account 1/2

注意这个下图把Data Lake Storage Gen2勾上,点击创建即可


创建Storage Account 2/2

创建好了Storage Account,需要给刚才的Managed Identity加到Data Lake文件的Owner权限里,在Storage Account里点击Access Control(IAM)

点击Add a role assignment添加权限配置



按照下图,选上刚刚创建的Managed Identity.


至此Data Lake创建配置成功。

接下来开始配置创建SQL Database用来做Hive和Oozie的Metadata的数据库。

Hive Metadata Database

Oozie Metadata Database

准备工作做好了接下来开始创建HDInsight,按照下图所示选好集群类型

存储账号里面选择刚刚创建的Data Lake

Metastore选择刚刚创建好的SQL Database


集群大小按照需要选择


点击创建


等10几分钟半小时,就能看到创建好的集群啦


image.png
日记本