阿海与蜗牛 - 简书

IP属地：四川

从Kylin入门到大数据老司机
一、UML基础为什么要使用UML 对象是面向对象世界的核心。面向对象软件分析和设计，最基本的需求是高效的识别对象,完成对象识别之后，赋予每个对...

0.2 1536 0 1
开源数据流管道-Luigi vs Azkaban vs Oozie vs Airflow
随着企业的发展，他们的工作流程变得更加复杂，越来越多的有着错综复杂依赖关系的工作流需要增加监控，故障排除。如果没有明确的血缘关系。就可能出现问责...

0.6 11125 0 5

由一条SQL分析SparkSQL执行过程（三）
对于下面一段SQL 在由一条SQL分析SparkSQL执行过程（二）中，我们分析到Spark如何封装SessionState，使得用户只需要通过...

1.0 3699 0 9
由一条SQL分析SparkSQL执行过程（二）
对于下面一段SQL 在上一部分，我们分析了SparkSQL的建议执行流程图。我们知道一条SQL在Spark执行要经历以下几步：用户提交SQL文...

1.2 6340 3 12
由一条SQL分析SparkSQL执行流程(一)
现有下面这段SQL语句这段SQL是从日志表中拿出用户点击PV（clk_pv），再去和用户表关联，按照用户分组，再对点击pv求和，同时，还过滤了...

0.7 2566 1 9
根据分子运动预测双色球走势（三）-数据清洗和机器学习
一、问题在爬取到双色球开奖的历史数据和开奖当日20-22点的气候数据之后，我们面临的问题是：选择什么样的算法寻找天气数据和双色球开奖结果的关...

2609 1 0
Spark On ElasticSearch初探
一、写在前面 ElasticSearch 是一个快速索引检索的库。在实践中，我们用Hbase 存储海量业务数据，再通过ES存储索引，以这种相互结...

1508 0 4

Hbase-Spark BulkLoad 解析
一、背景项目中有需求，要频繁地、快速地向一个表中初始化数据。因此如何加载数据，如何提高速度是需要解决的问题。一般来说，作为数据存储系统会分为检...

0.1 2291 0 2
Scala爬虫刷博客阅读量
一、写在前面最近尝试在简书上写一些技术博客。每天看着可怜的阅读量很是着急。刚好最近接触爬虫，有需求就有办法。因此想到能否用爬虫刷阅读量呢？答案...

1605 1 2