shohokuooo - 简书

shohokuooo

IP属地：江苏

Spark MLlib的协同过滤
Spark的MLlib实现了协同过滤（Collaborative Filtering）这个功能。官网文档链接熟悉推荐算法的同学可能也有这个认识...

1.5 6978 0 53
再谈RDD、DataFrame、DataSet关系以及相互转换（JAVA API）
Spark提供了三种主要的与数据相关的API： RDD DataFrame DataSet 下面详细介绍下各自的特点： RDD 主要描述：RDD...

1.1 15916 3 52 1

词向量word2vec（词嵌入Word Embedding）极简原理介绍及TF实践
词向量也称为词嵌入，是指将词转换成为向量的形式。为何需要词向量对于非结构化的数据：音频，图片，文字。前面两种的数据存储方式是天然高维和高密度...

0.9 9603 3 51
Spark MLlib学习——特征工程
Extracting, transforming and selecting features 这一大章节讲的内容主要是与特征工程相关的算法，粗...

0.8 6028 0 51
Ubuntu16.04下ke xue上网
之前在windows上配置全局上网方式用的是cisco的anyconnect，在Ubuntu下面也安装了cisco的anyconnect：htt...

0.7 1302 0 50
Spark ML Tuning：模型选择和超参调优
Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够方便用户对算法和Pipelin...

1.2 5358 1 50
Python数据分析常用API整理
整理归纳在Python中使用对数据处理的常用方法，包括与HDFS文件的读写，主要是怕用的时候记不住，容易搞混，再搜也不爽，好记性不如烂笔头，写下...

0.7 4107 0 50

Spark MLlib学习——分类和回归
本章节介绍了分类和回归的算法。它还包括讨论特定类别的算法部分，如：线性方法，树和集成。下面是整个API Doc中的内容框架，这里不会每个都详细介...

1.0 4248 0 50
Spark Streaming学习
以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。还是先把Maven的依赖加入进去： Overview S...

1.2 5337 1 50