240 发简信
  • 120
    大数据

    HDFS 分布式文件系统 按块存储支持大规模文件存储简化系统设计数据备份 名称节点,整个HDFS集群的管家。FsImage和editlog通过s...

  • 120
    模型评价方法

    第五章 模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲...

  • 120
    auc计算方法总结

    面试的时候回答的不清楚,学习&总结如下。参考link 1.ROC曲线 对于二值分类器,评价指标主要有precision,recall,F-sco...

  • cf

    协同过滤推荐系统可以分为基于用户的推荐和基于项目的推荐。 基本数据是用户对项目的评分表,预测稀疏矩阵中空缺项的值。越稀疏越难。 计算相似度:co...

  • 情感分析

    步骤: 数据与输出重排打散 bag-of-words词袋模型词袋模型 n-gram模型将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了...

  • 词向量模型

    词向量 重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个向量,长度为词表大小,只有一个...

  • cross-validation

    一开始提出的是LOOCV方法:每次取出一个数据作为测试集的唯一元素,其他n-1个元素作为训练集哟用于训练模型和调参。经过n个模型,每次一个MSE...

  • 面试复盘

    百度 一面 TCP协议C++里继承的多态 概率题,6位数倒过来还是一样的概率 从袋子里拿红黑球 2xN的大方块,用1x2和2x1填满有多少种方法...

  • 120
    xgboost原理

    阅读XGBoost 与 Boosted Tree 基学习器:CART 每个叶子节点上面有一个分数 不够厉害,所以找一个更强的模型 tree en...