240 发简信
IP属地:广东
  • hive更新UDF的正确步骤

    1. 删除原函数和jar包 1.1 在hive窗口e中执行删除原函数 1.2 在beeline中执行删除jar包 1.3 从hdfs上删除jar...

  • Resize,w 360,h 240
    在CDH环境集成Hudi

    一、Hudi简介 Hudi是Hadoop Updates and Incrementals的缩写,用于管理HDFS上的大型分析数据集存储,主要目...

  • MongoDB数据增量同步到Hive(方案二通过MongoSpark)

    一、背景 本文续接上文 MongoDB数据增量同步到Hive(方案一通过BSON文件映射)[https://www.jianshu.com/p...

  • MongoDB数据增量同步到Hive(方案一通过BSON文件映射)

    一、背景 随着monggo中数据量越来越大,全量同步到数仓,已不太现实,考虑增量同步的方式,我们在探索增量同步的过程中,方案不断在改进优化,这里...

  • mysql数据增量同步到hive

    一、背景 同步业务库的数据到ODS层,之前一直是全量同步数据,主要考虑IO太大,耗时太长,重复拉取同样的数据,现在考虑增量同步的方式实现,同时对...

  • Spark高级编程之TopN及分组TopN

    1、获取文本内最大的前三个数字输入数据: 3544426732133542313523733216782156 1)Java版top3: 输出结...

  • Spark高级编程之二次排序

    原始数据: 2 63 71 52 43 61 32 13 1 1、Java版二次排序首先定义排序的key 然后实现二次排序 2、Scala版二次...

  • Resize,w 360,h 240
    RDD讲解

    1、RDD的创建的三种方式1)使用程序中的集合创建RDDjava版代码如下: scala版代码如下: 2)使用本地文件创建RDDwordcoun...

  • Resize,w 360,h 240
    提交wordCount程序到spark集群上运行

    1、Java版wordCount1)Java代码: 2)打包代码上传到服务器 3)上传文件到hdfs上去 4)使用spark-submit提交 ...