数据分析 - 文集

数据分析

9篇文章 · 23292字 · 0人关注

在ARM机器上部署高可用大数据集群
一前言这是之前写的一篇文章，现在整理一下，重新发出来。由于Ambari安装在ARM机器上问题比较多。主要问题如下： ambari依赖的nod...

0.1 4786 0 3
企业级大数据平台
一前言阅读本文前需要掌握的知识： Linux基本原理和命令 Hadoop生态系统（包括HDFS，Spark的原理和安装命令）由于Hadoo...

0.1 1873 0 3

【译】Scala面试问题（Scala interview questions）
意译一篇《scala面试问题》的博客，原文地址：http://pedrorijo.com/blog/scala-interview-questi...

1.3 14029 2 19
HBase表结构和Phoenix 使用
前言我们通过业务系统将爬虫的数据写入了HBase，这篇文章说说HBase的表结构，及在HBase上利用Phoenix进行SQL操作。 HBas...

6304 0 5
利用Docker搭建大数据处理集群（2）——集成HBase和zookeeper
前言由于我们用爬虫框架采集了一些非结构化的数据，现在要存入HBase数据库，所以在原来的Spark集群上集成HBase数据库。Spark集群的...

4166 2 3
【CSDN博客迁移】Spark机器学习过程梳理
最近半个月开始研究Spark的机器学习算法，由于工作原因，其实现在还没有真正开始机器学习算法的研究，只是做了前期大量的准备，现在把早年学习的，正...

0.1 426 0 3
【CSDN博客迁移】Spark高级数据分析（1） ——纽约出租车轨迹的空间和时间数据分析
前言本文在之前搭建的集群上，运行一个地理空间分析的示例，示例来自于《Spark高级数据分析》第八章。Github项目地址：https://gi...

3253 1 5

【CSDN博客迁移】利用Docker搭建大数据处理集群(1)——HDFS和Spark
前言前面的android项目刚完，项目总结文章还未写完，公司需要研究大数据处理应用平台，任务下达到我们部门了，鉴于部门物理机只有一台，而虚拟机...

0.2 1215 0 7
【转】线性代数的本质
最原始出处：http://blog.csdn.net/myan/article/details/647511 （CSDN孟岩的博客）本文转自：...

1.5 3812 2 62