Spark SQL 简介

是什么?

image

Spark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源:Hive/Json/parquet,1.2开始支持 JDBC等,也可以对已有 RDD 增加 Schema 的方式获得。

当前 Spark SQL 使用 Catalyst 优化器对 SQL 语句进行优化,从而得到更好的执行方案。

生态中的一环

更重要的是,Spark SQL 基于 DataFrame 可以和 SparkStreaming ,MLIb 等进行无缝集成,这样可以使用一种技术栈对数据进行批处理,流式处理和交互式查询等。

Spark SQL允许使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java、Scala、Python和R。

Hive vs Shark vs Spark SQL

Hive 是 Shark 的前身,Shark 是 Spark SQL 的前身。

根据伯克利实验室提供的测试数据,Shark 基于内存的计算性能是 hive 的100倍左右,即使是磁盘计算,它的性能也是 hive 的 10 倍左右。而 Spark SQL 比 Shark 又有较大的提升。

Hive 是建立在 Hadoop 之上的数据仓库基础框架,也是最早运行在 Hadoop 上的 SQL on Hadoop 工具之一,但是 hive 是基于 MapReduce 的,计算过程有大量的中间磁盘落地过程,消耗了大量的 IO,这大大降低了运行效率。基于此,大量优化的 SQL Hadoop 的工具出现,变现最为突出的就是 Shark。

Shark 直接建立在 Apache Hive 上,扩展了 Hive 并修改了 Hive 架构中的内存管理、物理计划和执行三个模块,使之可以运行在 Spark引擎上面。所以它几乎支持 hive 的所有特点,数据格式、UDF,并采用 hive 的解析器,查询优化器等。(如下图所示)

image

2014年,Databricks 公司宣布 Shark 全面转向 Spark SQL。

Spark SQL 在 hive 兼容层面仅依赖于 HQL Parser/Hive Metastore/Hive SerDes,也就是从 HQL 被解析成语法树(AST)q起,就全部由 Spark SQL 接管了,执行计划和优化都是由 Catalyst 负责。

除了支持现有的 Hive 脚本,Spark SQL 还内建了一个精简的 SQL 解析以及一套 Scala DSL,如果使用 Spark SQL 内建方言或 Scala DSL 对原生 RDD 对象进行操作,我们可以完全不依赖 hive 那套东西。Spark SQL 吸取了 Shark 的优点,比如内存列存储。

</article>

DataFrames和SQL提供了访问各种数据源的通用方法,包括Hive、Avro、Parquet、ORC、JSON和JDBC。甚至可以跨这些源连接数据。

image

参考

https://spark.apache.org/sql/

(完)

原文地址:https://mp.weixin.qq.com/s?__biz=MzU3NDUzMjA0MQ==&mid=2247483732&idx=1&sn=f93d6bbe55fca2d9bb89b3698bf5ac33&chksm=fd31b1f2ca4638e4ce4d328d543b17b10129db1c726118627ade60242ef41dbcfd49e33e2967&token=1882532060&lang=zh_CN#rd

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容