240 发简信
IP属地:北京
  • pySpark DataFrame入门

    DataFrame是一种不可变的分布式数据集,这种数据被组织成指定的列,类似于关系数据库中的表。Spark DataFrame与Python pandas 中的DataFra...

  • 120
    论数据安全

    对于任何企业或组织,数据都是最重要的一项资产。数据泄露、或未遵守监管要求都可能给企业带来巨大的灾难、损害组织声誉、多年建立的品牌毁于一旦、企业资产损失以及违规罚款。 数据安全...

  • 经典面试题-大厂SQL题目

    1、 如何用一个SQL找出部门下所有员工的平均工资大于某个数(例如20000元)的所有部门? 正确答案: 2、 两张结构一模一样的表,只是放的不同时间的数据,怎么用一个SQL...

  • 120
    准确率、精确率、召回率

    在机器学习领域,模型评估中的TP、TN、FP、FN、准确率、精确率等,实在是令人傻傻分不清,今天就好好缕缕这些概念。混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果...