• 120
  MapReduce Shuffle 和 Spark Shuffle 原理概述

  更多大数据技术干货,欢迎关注“大数据技术进阶”微信公众号。 Shuffle简介 Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打...

  2.2 1052 2 13
 • Hive小文件合并迁移

  1 需求 Hive数据库内有4张表,每张表有1TB左右数据,按天分区,需要将这4张表的数据迁移到另一个集群。因为两个Hadoop集群都开启了k...

 • 跨集群KDC数据迁移

  拷贝KDC A的数据追加到KDC B,使得在B集群节点可以通过认证访问A集群内的服务。 1 KDC A 将KDC A的DATABASE数据导出...

 • 阿里,头条,美团,快手大数据开发岗面试总结

  从3月份开始,陆续面了阿里,头条,美团,快手四家公司的大数据开发岗位,近20场面试面下来挺耗费脑力的,不过结果还行,除了头条外,目前拿到了其他三...

  6.5 4889 2 45
 • 配置两个不同kerberos认证中心的集群间的互信

  两个Hadoop集群开启Kerberos验证后,集群间不能够相互访问,需要实现Kerberos之间的互信,使用Hadoop集群A的客户端访问Ha...

 • hive sql里的聚合和排序

  五种关键字是有严格顺序的 一个SQL语句往往会产生多个临时视图,那么这些关键字的执行顺序就非常重要了,因为你必须了解这个关键字是在对应视图形成前...

 • 120
  Spark中executor-memory参数详解

  我们知道,spark执行的时候,可以通过 --executor-memory 来设置executor执行时所需的memory。但如果设置的过大,...

 • Kafka consumer处理大消息数据问题分析

  案例分析 处理kafka consumer的程序的时候,发现如下错误: 如上log可以看出,问题就是有一个较大的消息数据在codeTopic的p...

 • 120
  【转载】Kafka史上最详细原理总结

  KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zooke...

  0.9 7325 1 149
个人介绍
更多大数据技术干货,欢迎关注“大数据技术进阶”微信公众号。