《利用pyhton进行数据分析》笔记-Numpy(三)

1.将条件逻辑表述维数组运算(np.where)

  # 简单的例子
  temp_array = np.array([1,2,3,4,5,6])
#将temp_array中大于三的数全部重置为6
 # 1.版本
 for i,j in enumerate(temp_array):
    if j > 3:
        temp_array[i] = 6
    
temp_array #  返回值 array([1, 2, 3, 6, 6, 6])

# map+lambda版本
temp_array = np.array([1,2,3,4,5,6])
np.array(list(map(lambda i:6 if i > 3 else i,temp_array))) # 返回值:array([1, 2, 3, 6, 6, 6])


 # np.where版本
temp_array = np.array([1,2,3,4,5,6])
np.where(temp_array > 3, 6, temp_array) # array([1, 2, 3, 6, 6, 6])

前两种的方式如果处理的是大数组的处理速度并不是很快,而且如果是多维数组的,处理起来也是捉襟见肘。那么, np.where显然是为此而生。来看一下参数 where(condition, x=None, y=None),其中的condition为判断条件,如果判断条件为True, 则为x,否则为y。x,y 可以是标量, 通常,np.where返回的是满足条件的新的数组。如果只给定条件 condition, 则返回满足条件的元组。

#只传一个condition
x = np.arange(12).reshape(3, 4)
x

# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11]])

np.where( x > 5 ) # 返回值的type:tuple。需要注意的是返回的并不是数组, 而是一个元祖,里边分别是满足条件的每个维度的下标
# (array([1, 1, 2, 2, 2, 2], dtype=int64),
#  array([2, 3, 0, 1, 2, 3], dtype=int64))

x[np.where( x > 3.0 )]  # 返回数组的方式
#array([ 4,  5,  6,  7,  8,  9, 10, 11])

来看一下, 更为复杂的嵌套格式:

 a = np.array([1,2,3,8,5,6,9])
b = np.array([2,3,4,5,6,8,9])

c = []
for i in range(7):
    if a[i] == b[i]:
        c.append(-1)
    elif b[i] > a[i]:
        c.append(-66)
    else:
        c.append(0)

c # [-66, -66, -66, 0, -66, -66, -1]



a = np.array([1,2,3,8,5,6,9])
b = np.array([2,3,4,5,6,8,9])

np.where(a==b, -1, np.where(b>a, -66,0))# array([-66, -66, -66,   0, -66, -66,  -1])

2.数学和统计方法

可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。一般的运算都是聚合计算(即一组数经过计算得到一个数),而其他如cumsum(所有元素的累计和)、cunprod(所有元素的累计积)之类的方法则不聚合, 产生的新数组是由中间的结果组成的。

 temp_array = np.arange(20).reshape(4,5)
temp_array
# array([[ 0,  1,  2,  3,  4],
#        [ 5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14],
#        [15, 16, 17, 18, 19]])

#求平均值
temp_array.mean() # 等价与np.mean(temp_array)
# 返回值:9.5
# 按轴进行求平均值
temp_array.mean(axis=0) # 按0轴进行求平均值
# 返回值:array([ 7.5,  8.5,  9.5, 10.5, 11.5])
temp_array.mean(axis=1) #按1轴进行求平均值
# 返回值:array([ 2.,  7., 12., 17.])

# 进行求和
temp_array.sum()# 等价于 np.sum(temp_array)
# 返回值:190

# 按轴进行求和
temp_array.sum(axis=1) # 按1轴进行求和
# 返回值:array([10, 35, 60, 85])

temp_array.sum(axis=0)# 按0轴进行求和
# 返回值:array([30, 34, 38, 42, 46])

# 累计和:
 temp_array.cumsum(0)
 # 返回值:array([[ 0,  1,  2,  3,  4],
#        [ 5,  7,  9, 11, 13],
#        [15, 18, 21, 24, 27],
#        [30, 34, 38, 42, 46]], dtype=int32)

temp_array.cumsum(1)    
# 返回值:array([[ 0,  1,  3,  6, 10],
#        [ 5, 11, 18, 26, 35],
#        [10, 21, 33, 46, 60],
#        [15, 31, 48, 66, 85]], dtype=int32)

temp_array.cumprod(0)
#返回值:
# array([[   0,    1,    2,    3,    4],
#        [   0,    6,   14,   24,   36],
#        [   0,   66,  168,  312,  504],
#        [   0, 1056, 2856, 5616, 9576]], dtype=int32)

temp_array.cumprod(1)
# # 返回值:
# array([[      0,       0,       0,       0,       0],
#        [      5,      30,     210,    1680,   15120],
#        [     10,     110,    1320,   17160,  240240],
#        [     15,     240,    4080,   73440, 1395360]], dtype=int32)
2.1用于布尔型数组的方法:

在数学和统计方法中,布尔值会被强制转换为0和1。所以, sum经常用来对数组中的True的个数进行计算。另外还有两种方法: any 用于测试数组中是否存在True,如果是返回True,否则返回Flase。 all用来判断数组中的元素是否全为True,如果是返回True,否则返回Flase。。这两种方法同样适用于非布尔型数组,即所有非0元素都会当作True。

temp_array = np.arange(10)
(temp_array>5).sum()  # 统计数组中,满足条件的元素的个数。


(temp_array>5).all()# 返回指:False

(temp_array>5).any()# 返回值:True

3.排序

temp_array =np.random.randn(8)
temp_array #array([ 1.63138405,  0.02460054,  0.79967461, -0.56063733, -0.52650574, 0.10417684, -1.63061352, -0.15933881])
temp_array.sort() # 这里直接修改的源数据,即temp_array
temp_array #array([-1.63061352, -0.56063733, -0.52650574, -0.15933881,  0.02460054, 0.10417684,  0.79967461,  1.63138405])

# 多维数组可以传入轴的编号,按轴进行排序,直接修改的是源数据
temp_array = np.random.randn(5,3)
temp_array
 #返回值:array([[-0.44019667,  0.66656445,  0.01409205],
       [-0.05383199, -1.77110565, -2.14482723],
       [-0.08729912, -0.2606773 , -0.8455391 ],
       [-0.37604029,  0.43741626,  0.70823732],
       [-1.25897325, -1.16871423, -0.40298885]])

temp_array.sort(0)# 按0号轴进行排序
temp_array
#返回值: array([[-1.25897325, -1.77110565, -2.14482723],
   [-0.44019667, -1.16871423, -0.8455391 ],
   [-0.37604029, -0.2606773 , -0.40298885],
   [-0.08729912,  0.43741626,  0.01409205],
   [-0.05383199,  0.66656445,  0.70823732]])
temp_array.sort(1) # 按1号轴进行排序
 temp_array
#返回值: array([[-2.14482723, -1.77110565, -1.25897325],
   [-1.16871423, -0.8455391 , -0.44019667],
   [-0.40298885, -0.37604029, -0.2606773 ],
   [-0.08729912,  0.01409205,  0.43741626],
   [-0.05383199,  0.66656445,  0.70823732]])

# np.sort
temp_array = np.random.randn(10)
temp_array
 #返回值:array([-0.69450073, -0.9602936 , -0.78519972,  0.16057989,  0.82380485,
   2.41590235,  1.42378936,  2.07849092,  0.73592523, -0.6379529 ])

np.sort(temp_array) # 有返回值,返回值是排序完的副本, 而不是视图
   # 返回值:array([-0.9602936 , -0.78519972, -0.69450073, -0.6379529 ,  0.16057989,
    0.73592523,  0.82380485,  1.42378936,  2.07849092,  2.41590235])
3.1 唯一化(去重)以及其他的集合逻辑
temp_array = np.array([1,3,2,4,5,5,6,5,3,2,4,11,10,11,2,3,4,3])
np.unique(temp_array) # 返回值:array([ 1,  2,  3,  4,  5,  6, 10, 11])

temp_list = [1,3,2,4,5,5,6,5,3,2,4,11,10,11,2,3,4,3]
sorted(set(temp_list)) # 返回值: [1, 2, 3, 4, 5, 6, 10, 11]

4.文件的读写

np.savenp.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始二进制格式保存在拓展名为.npy的文件中。使用np.savez可以将多个数组保存到一个压缩文件中,将数组以关键字参数传入即可。读取的时候, 依然用np.load, 但得到的是一个类似字典的对象,需要通过参数进行取数组。读取csv文件的, 我实际用的都是pandas的, 这里不过多的展开了。

temp_array = np.arange(15)
np.save('test', temp_array) # 生成test.npy的文件  自动添加上的。
temp_array2 = np.load('test.npy')
temp_array2
# 返回值:array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

# np.savez的用法,可保存压缩文件
np.savez('test2', a=temp_array, b=temp_array3) #  生成test.npz的压缩文件,参数名字不定,可以随意取。
test2 = np.load('test2.npz')
test2 # 返回值 :<numpy.lib.npyio.NpzFile at 0x1135a14a8>
test2.files # 返回其中的键(或者文件名)  返回值:['a', 'b']
test2['a']
#返回值:array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])
test2['b']
#返回值:array([[0, 1, 2, 3, 4],
#        [5, 6, 7, 8, 9]])

5.线性代数

两个数组相乘,得到的是元素级的乘积, 而无法得到矩阵点积。所以一下的方法就是操作数组如矩阵。
矩阵的基本运算法则还是挺重要的,后期的机器学习,也需要用的到。需要重点看一下矩阵运算的法则,这里不过多的展开了,用的到, 相信我!

# 矩阵点积:
#两种形状 (2,3)*(3*2) 得到的形状应该是(2,2)

a = np.arange(6).reshape(2,3)
#返回值: array([[0, 1, 2],
#        [3, 4, 5]])
b = np.arange(6).reshape(3,2)
# 返回值 :array([[0, 1],
#        [2, 3],
#        [4, 5]])
np.dot(a,b) # 返回值的形状是(2,2)
#array([[10, 13],
#        [28, 40]])

总注:有关Numpy的笔记差不多就到这里了,通过这本书, 可以感受的到,作者的重点不是这里,而是pandas。我也是感觉比较重要的地方简单的做了笔记,请读者老爷多多指教。另外书上最后的例子给的是随机漫步,我不打算用这个例子。下一个笔记,我将用一个我自己处理过的简单的验证码用来Numpy笔记的终章。

本人水平有限, 如有错误欢迎提出指正!如有参考, 请注明出处!!原创不易,禁止抄袭,遇抄必肛!!!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容