240 投稿
收录了626篇文章 · 1433人关注
  • 120
    hive sql资源调优+数据倾斜解决方案

    一、mapreduce过程资源优化 要了解mapreduce的资源优化,首先应该要熟悉整个mapreduce的过程,可以参考mapreduce2...

  • 120
    MapReduce2深入浅析

    一、MapReduce2工作机制 1.1、MapReduce2的架构图 1.2、MapReduce2运作步骤 说在前头的话,上图中有一个Reso...

  • 配置zookeeper

    上传zookeeper安装包到集群中的任意一台机器上 解压tar -zxvf zookeeper-3.4.5.tar.gz 切换到zookeep...

  • 配置hadoop环境

    准备Linux环境 修改主机名 vi /etc/sysconfig/network NETWORKKING = yes HOSTNAME = m...

  • 配置HA

    HA简介HA是High Available缩写,是双机集群系统简称,指高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,...

  • 从零使用本地仓库安装Ambari

    Ambari和CDH一样,是较为流行的hadoop管理工具(虽然Hortonworks已经被Cloudera收购了),这篇文章我记录了如何从头安...

  • 使用Java API连接Sentry

    工作中需要使用Java API来连接Sentry,但是很神奇地发现Sentry的官网没有API文档,经过一番搜索和试错之后最终搞定了,在此分享一...

  • hive表分桶设计

    分桶字段选择 进行分桶之前需要对表的数据分布情况进行大致的分析,一般遵循的原则为,选择离散度高的字段进行分桶。可以通过收集的数据特征,如Dist...

  • Hive调优

    本文种记录的大多是开源版本hive调优方式 我也会补充TDH集群Inceptor的优化方式 面试必备技能-HiveSQL优化 Hive SQL基...

  • hadoop 的lease(一)

    “租约” ,何为租约,一个租约管理着一个client的所有锁,对于每个client 都有一个相应的租约,但一个client 定期 check i...

专题公告

Hadoop