shohokuooo - 简书

shohokuooo

IP属地：江苏

Spark ML Tuning：模型选择和超参调优
Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够方便用户对算法和Pipelin...

1.2 5358 1 50
再谈RDD、DataFrame、DataSet关系以及相互转换（JAVA API）
Spark提供了三种主要的与数据相关的API： RDD DataFrame DataSet 下面详细介绍下各自的特点： RDD 主要描述：RDD...

1.1 15915 3 52 1

词向量word2vec（词嵌入Word Embedding）极简原理介绍及TF实践
词向量也称为词嵌入，是指将词转换成为向量的形式。为何需要词向量对于非结构化的数据：音频，图片，文字。前面两种的数据存储方式是天然高维和高密度...

0.9 9603 3 51
Spark Streaming学习
以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。还是先把Maven的依赖加入进去： Overview S...

1.2 5337 1 50
【实践】用Spark MLlib自带的LR算法预测Kaggle的Titanic问题
之前阅读了Spark的ML API文档，也看了里面介绍的example，正好之前自己写过Logistic Regression的算法并预测了下K...

1.0 6395 2 49
Spark官方编程指南—の—详解加实践
介绍本篇文章主要摘自Spark官网的Spark Programming Guide，在之前的一篇文章中已经有对这里面一些概念的基本介绍，这里就...

0.9 2174 1 48
Spark SQL，DataFrames和Datasets学习
本内容主要来自当前Spark最新版2.1.0的官方文档sql-programming-guide，以及一些其他阅读时搜索找到的相关辅助资料。在...

0.9 4635 0 48

Spark MLlib学习——综述和Pipeline
MLlib是Spark的机器学习lib，目的是让机器学习的实践变得更加简单，总的来说它提供了以下几种工具： ML算法：分类、回归、聚类和协同过滤...

1.4 8422 1 48
Spark常用概念
从Spark官网以及《Spark最佳实践》中整理得到，其中主要是给自己做记录笔记用，难免因为初学的原因有很多过时或者错误的信息。 Spark部署...

0.9 830 0 50