大数据架构技术地图-学习大纲

架构地图

大数据架构技术路线图

序序叨叨

最新梳理了2021年以大数据为中心的技术架构地图,一些重点的技术已经用粗体标出。计划对照地图逐一打卡,查漏补缺。
大数据从2014年、2015年大火以来,现在已经度过了爆发期、泡沫期,趋于成熟和产业落地,就此架构地图简单说明几点,欢迎各位老师交流补充。

传统的大数据三件套

  • 大数据采集
  • 大数据存储
  • 大数据计算

也有说大数据可视化的,一般来说可视化的工作仍属于传统前端展示,与“小数据”的时代并无太大的差异。实际上,大数据的工作奥义就是将大数据转为小数据,然后友军接手,专业的事情还是交给专业的人去做吧。

采集那里没有特别在技术地图上写明。一般就是sqoop,flume这两个,或者加一个阿里巴巴开源的canal(支持Mysql基于数据库增量日志解析,提供增量数据订阅&消费)。存储目前主流还是Hadoop系,可以关注一下对象存储。大数据计算领域Spark还是标杆。

服务器与Linux

大数据的工作与Linux等操作系统打交道的频次远远高于传统后端开发。大数据组件的部署和维护也对服务器知识有一定的需求。这方面的知识多多益善。
Linux主要是有几个流行的发行版,再者就是关注一下6/7/8大版本的命令差异。

数学

做大数据业务的话没有对高等数学有很高的要求。想更上一层楼的话,比如目标是数据科学家,那时候再有的放矢地去钻。不过,良好的数据结构与算法基础大有裨益,跟具体做什么工作关系不大,更像是一种思维逻辑的训练。
计科的知识学而时习之,基本功扎实了,才能修好内功。

云计算

PaaSDaaS的概念已经清晰了。大数据服务上云,数据即服务的趋势明朗,云计算的边角料该掌握就掌握,顺势而为。

建议先学习容器化

重要的方向

数据质量、数据治理和数据湖正当其时。如果只会大数据三件套,已经无法突破卷的结界了,提升综合能力,成为π型人才才能更加可靠。

这个方向可以围绕数据仓库和中台概念展开。

未雨绸缪,时不我待。

计划每一个一级分类会创建出一个专题进行梳理,持续更新,一起学习吧。

点:技术地图
线:架构通识
面:大数据

更新于2021/5/18
暮小七

推荐阅读更多精彩内容