240 发简信
IP属地:广东
  • 120
    流畅的Python_字典和集合

    • Python 里的 dict 和 set 的效率有多高? 在一个有 1000 万个键的字典里查找 1000 个数,花在每个数上的时间不过是 0.337微秒 • 为什么它们...

  • 120
    流畅的Python_数据结构_序列构成的数组

    容器序列 list、tuple 和 collections.deque 这些序列能存放不同类型的数据。 扁平序列 str、bytes、bytearray、memoryview...

  • 120
  • 120
    高维数据的异常检测

    5、练习 1.使用PyOD库生成toy example并调用feature bagging 2.使用PyOD库生成toy example并调用Isolation Forest...

  • 120
    论⽂种类分类

    4.1 任务说明 学习主题:论⽂分类(数据建模任务),利⽤已有数据建模,对新论⽂进⾏类别分类; 学习内容:使⽤论⽂标题完成类别分类; 学习成果:学会⽂本分类的基本⽅法、 TF...

  • 120
    基于相似度的⽅法

    1、概述 异常”通常是⼀个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌⼊在⼤量的噪声中,而我们所说的“异常值”通常指具...

  • 120
    论⽂代码统计

    正则表达式 正则表达式(regular expression)描述了⼀种字符串匹配的模式(pattern),可以⽤来检查⼀个串是否含有某种⼦串、将匹配的⼦串替换或者从某个串中...

  • 120
    线性模型

    真实数据集中不同维度的数据通常具有⾼度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的⽅式产⽣的。在古典统计学中,这被称为——回归建模,⼀种参数化的相关性分析。...

  • 120
    论⽂作者统计

    任务主题:论⽂作者统计,统计所有论⽂作者出现评率Top10的姓名; 任务内容:论⽂作者的统计、使⽤ Pandas 读取数据并使⽤字符串操作; 任务成果:学习 Pandas 的...

  • 120
    异常检测—基于统计学方法

    基于统计学的方法 1、概述 统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型 的数据是异常点。统计学方法的有效性高度依赖于对给定数据...

  • 120
    综合大作业

    任务一:显卡日志 下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构: 其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练...

  • 120
    学术前沿第一小节

    1.数据集介绍数据集的格式如下: id :arXiv ID,可⽤于访问论⽂; submitter :论⽂提交者; authors :论⽂作者; title :论⽂标题; co...

  • 120
    异常检测基本概念

    异常检测(又称outlier detection、anomaly detection,离群值检测)是一种重要的数据挖掘方法,可以找到与“主要数据分布”不同的异常值(devia...

  • 120
    时间数据

    1 时序中的基本对象 时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描 述。例如 2020 年 9 月 7 日周一早上 8 点整...

  • 120
    分类数据

    1 cat 对象 1.1 cat 对象的属性 在 pandas 中提供了 category 类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以 使用 ast...

  • 文本数据

    1 str 对象 1.1 str 对象的设计意图 str 对象是定义在 Index 或 Series 上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此 对一个...

  • 缺失值处理

    缺失数据 1 缺失值的统计和删除 1.1 缺失信息的统计 缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,通过和 sum 的组合可...

  • 120
    期中小测

    1、【任务一】企业收入的多样性 【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标: I=− ∑p(xi)log(p(xi)) 其中 p(xi) 是企业...

  • 120
    Python连接

    1 关系型连接 1.1 连接的基本概念 把两张相关的表按照某一个或某一组键连接起来。在关系型连接中,键是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 ...

  • Python变形

    1.长宽表的变形 什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中, 那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某...