240 发简信
IP属地:上海
  • Spark应用运行流程

      Apache Spark是开源的、分布式的、集成计算引擎,支持在计算机集群上的并行数据计算。Spark支持多种被广泛使用的编程语言(Pyth...

  • Python包之OS

    参考:https://docs.python.org/3/library/os.html Python中对OS模块的定位是:提供了使用操作系统的...

  • Python包之collections

    collections提供了特殊的容器类型,可以作为Python内建容器类型的替代选择: 容器类型说明namedtuple()工厂函数,提供创建...

  • GBDT原理详解及sklearn源码解析

    以下关于GBM和GBDT的理解来自经典论文[greedy function approximation: a gradient boosting...

  • Resize,w 360,h 240
    XGBoost原理详解及系统优化

    XGBoost,全称“Extreme Gradient Boosting”,和GBDT一样属于Boosting类型的模型,也是一种加法模型。 1...

  • sparkContext的addFile和addPyFile

    addFile(path, recursive=False) 把文件分发到集群中每个worker节点,然后worker会把文件存放在临时目录下,...