小小兰哈哈 - 简书

IP属地：北京

Spark 学习笔记
dataframe create 创建dataframe val training = ss.createDataFrame(Seq( (...

502 0 0
随机数
笔者近期使用了随机数做抽样，本来是一个简单的应用，但是我想要探究一下随机数的生成原理，就看了一些网上的相关文章，总结如下。首先贴一段是用c# ...

280 0 0

ProductQuantizer-向量压缩
Product Quantizer 是一种将空间内的点x，通过kmeans算法映射到多个聚类中心, 然后在通过聚类中心表示该点x的向量压缩方法....

994 0 0
生长函数和VC 维
背景: The sample complexity bounds of the previous chapter are uninformati...

893 0 0
PAC-learning
PAD-learnable的定义: P(Rs(h(x))>=ϵ)<=δ * 存在对应的其中是样本的数量，代表样本的分布代表样本空间 * 存在对...

603 0 0
bert 模型压缩原理
1. 压缩目的: 在基本不影响模型效果的基础上,对bert模型进行同构压缩，将layer 与embedding size减少，尽可能提升模型的...

599 0 0
AUC 理论推导
一. 应用场景 1.分类 2. ranking 二. AUC的意义解释在随机抽取两个正负样本，负样本得分比正样本高的比例. 这样的解释，在分类...

455 0 0

Foundations of Machine Learning 详解
《Foundations of Machine Learning》一书是一本很好的机器学习教材，作者: Mohri,Rostamizeadeh...

1829 0 0
使用spark 训练机器学习大数据量情况下模型-native bayes
引言机器学习模型，如nb, svm, xgboost, gdbt, crf 等，是进行分类，排序，回归的常用工具。目前，有许多机器学习的工具性...

0.1 252 0 1