240 发简信
IP属地:北京
  • Spark 学习笔记

    dataframe create 创建dataframe val training = ss.createDataFrame(Seq( (...

  • 随机数

    笔者近期使用了随机数做抽样,本来是一个简单的应用,但是我想要探究一下随机数的生成原理,就看了一些网上的相关文章,总结如下。 首先贴一段是用c# ...

  • Resize,w 360,h 240
    ProductQuantizer-向量压缩

    Product Quantizer 是一种将空间内的点x,通过kmeans算法映射到多个聚类中心, 然后在通过聚类中心表示该点x的向量压缩方法....

  • 生长函数和VC 维

    背景: The sample complexity bounds of the previous chapter are uninformati...

  • PAC-learning

    PAD-learnable的 定义: P(Rs(h(x))>=ϵ)<=δ * 存在对应的其中是样本的数量,代表样本的分布代表样本空间 * 存在对...

  • bert 模型压缩原理

    1. 压缩目的: 在基本不影响模型效果的基础上,对bert模型进行同构压缩,将layer 与embedding size减少, 尽可能提升模型的...

  • Resize,w 360,h 240
    AUC 理论推导

    一. 应用场景 1.分类 2. ranking 二. AUC的意义解释 在随机抽取两个正负样本,负样本得分比正样本高的比例. 这样的解释,在分类...

  • Resize,w 360,h 240
    Foundations of Machine Learning 详解

    《Foundations of Machine Learning》一书是一本很好的机器学习教材, 作者: Mohri,Rostamizeadeh...

  • Resize,w 360,h 240
    使用spark 训练机器学习大数据量情况下模型-native bayes

    引言 机器学习模型,如nb, svm, xgboost, gdbt, crf 等,是进行分类,排序,回归的常用工具。目前,有许多机器学习的工具性...