240 发简信
  • Hive优化

    Hive简单优化与定期ETL Hive优化 Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者对MapReduc...

  • 初始装载

    在Hive中装载维度表。 初始装载 在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。 首次装载被称为初始装...

  • PCA算法推导

    PCA理解与应用。 Motivation PCA与Factor analysis非常相似,都是主要用于reduction data dimens...

  • 基于时间戳的并发控制

    实现基于时间戳的事务处理原型。 TO算法流程 维护若干时间戳事务时间戳:以事务开始时间标识事务的先后顺序,表示为ts(T)数据项读写时间戳:记录...

  • 基于锁的并发控制

    实现基于2PL的事务处理原型。 基本概念 Short duration lock 短锁动作开始前申请锁,动作结束立即把锁释放 Long dura...

  • Factor Analysis

    这应该是学ML依赖推导过的最痛苦的算法了,所以我想先用直观的语言描述什么是Factor analysis。 因子分析(factor analys...

  • Hive使用

    使用Hadoop和Hive。 首先,Hive是使用了MapReduce引擎和HDFS存储的中间键,其元数据存储在MySQL,Hive只是方便查询...

  • EM算法推导

    推导EM算法,并证明收敛性。 Jensen’s inequality 定理:若是凸函数,是随机变量,我们有: 若是严格凸函数,也就是恒成立,同时...

  • EM 思想

    以Kmeans和GMM为例,阐述EM思想。 Kmeans kmeans是一种相当简单和直观的聚类算法,主要分类两步: 对于每个点,选择离他最近的...