240 发简信
IP属地:江苏
  • Resize,w 360,h 240
    Spark ML Tuning:模型选择和超参调优

    Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够方便用户对算法和Pipelin...

    1.2 5358 1 50
  • Resize,w 360,h 240
    再谈RDD、DataFrame、DataSet关系以及相互转换(JAVA API)

    Spark提供了三种主要的与数据相关的API: RDD DataFrame DataSet 下面详细介绍下各自的特点: RDD 主要描述:RDD...

    1.1 15915 3 52 1
  • Resize,w 360,h 240
    词向量word2vec(词嵌入Word Embedding)极简原理介绍及TF实践

    词向量也称为词嵌入,是指将词转换成为向量的形式。 为何需要词向量 对于非结构化的数据:音频,图片,文字。前面两种的数据存储方式是天然高维和高密度...

    0.9 9603 3 51
  • Resize,w 360,h 240
    Spark Streaming学习

    以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。 还是先把Maven的依赖加入进去: Overview S...

    1.2 5337 1 50
  • 【实践】用Spark MLlib自带的LR算法预测Kaggle的Titanic问题

    之前阅读了Spark的ML API文档,也看了里面介绍的example,正好之前自己写过Logistic Regression的算法并预测了下K...

    1.0 6395 2 49
  • Resize,w 360,h 240
    Spark官方编程指南—の—详解加实践

    介绍 本篇文章主要摘自Spark官网的Spark Programming Guide,在之前的一篇文章中已经有对这里面一些概念的基本介绍,这里就...

    0.9 2174 1 48
  • Resize,w 360,h 240
    Spark SQL,DataFrames和Datasets学习

    本内容主要来自当前Spark最新版2.1.0的官方文档sql-programming-guide,以及一些其他阅读时搜索找到的相关辅助资料。 在...

    0.9 4635 0 48
  • Resize,w 360,h 240
    Spark MLlib学习——综述和Pipeline

    MLlib是Spark的机器学习lib,目的是让机器学习的实践变得更加简单,总的来说它提供了以下几种工具: ML算法:分类、回归、聚类和协同过滤...

    1.4 8422 1 48
  • Spark常用概念

    从Spark官网以及《Spark最佳实践》中整理得到,其中主要是给自己做记录笔记用,难免因为初学的原因有很多过时或者错误的信息。 Spark部署...

    0.9 830 0 50