240 发简信
IP属地:香港
  • Resize,w 360,h 240
    爬虫篇(一)

    爬虫篇只会对简单的爬虫进行介绍,只是为了学习数据分析时方便采集数据。所以下面关于爬虫的内容将只会围绕urllib2、re这两个库开展 首先我们要...

  • 数据规整化

    1.合并数据集 DataFrame 中的merge方法是一种多对一的合并。 df1中的数据有多个被标记为a和b的行,而df2中key列的每个值则...

  • Hadoop平台基础搭建

    基础准备:Ubuntuhadoop-2.7.3.tar.gzjdk-8u144-linux-x64.tar.gz 1.Hadoop平台是完全使用...

  • 数据加载

    之前写的numpy和pandas都是基于一个前提下,那就是我们可以把数据直接导入到Python中进行操作,否则之前的学习都是没有意义的,而不论是...

  • pandas(五)——层次化索引

    pandas中的层次化索引是我们能以低纬度形式处理高纬度数据。 这样的一个数据集我们可以将它变得更加直观,将它变成只有一层索引的数据: 这样的变...

  • pandas(四)——处理缺失数据

    pandas中使用浮点值NaN表示缺失值,Python内置的None值也会被当做NA处理 pandas中常用的对NA进行处理的方法dropna:...

  • Resize,w 360,h 240
    pandas(三)

    汇总和计算描述统计 调用DataFrame的sum方法将会返回一个含有列小计的Series: 传入axis=1将会按行进行求和运算: NA值将会...

  • pandas(二)

    pandas重索引 如果重索引传入的索引号原在原索引中并不存在则引入空值 我们可以控制这个引入的值是什么,默认是NaN,可以通过fill_val...

  • pandas(一)

    pandas中的Series和DataFrame是我们非常常用的两个工具。 Series是一种类似于一维数组的对象 Series由一组数据(各种...