7篇文章 · 16847字 · 3人关注
前言 这是一篇科普性质的文章,希望能过用一个通俗易懂的例子给非计算机专业背景的朋友讲清楚大数据分布式计算技术。大数据技术虽然包含存储、计算和分析...
航空业每时每刻都要处理大量的数据,是一个很好的可以利用大数据分析和机器学习技术创造价值的领域,在航行数据、天气数据、顾客行为数据等多个角度和层次...
本文是读完Martin Kleppmann的《Making sense of stream processing》的一些理解和感悟。 Event...
正文内容分为上下两篇来阐述,上一篇见《Spark内存管理详解(上)——内存分配》[https://www.jianshu.com/p/3981b...
正文内容分为上下两篇来阐述,下一篇见《Spark内存管理详解(下)——内存管理》[https://www.jianshu.com/p/58288...
Spark Shuffle的两阶段 对于Spark来讲,一些Transformation或Action算子会让RDD产生宽依赖,即parent ...
Spark集群 一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元。Spar...
文集作者