python 可变类型踩雷记(1)

可变类型是个神奇的存在。神奇的东西都比较容易让人懵逼。
本篇主要内容:本人干的一件蠢事和可变类型的复制问题。

前阵子遇到个有点儿麻烦的额外任务,要从一万多条网址的返回信息中提取某个字段。费了半天劲儿搞通了网络连接之后,发现速度极慢,一条就要两三秒。完整走下来得十多个小时,根本行不通。于是我就想弄个多线程同时爬。

以我的笨蛋程度,能想到就是把所有的网址分成几十份儿,然后用多线程同时处理。然后,就出问题了。二十个线程跑了起来,但处理的是同一条数据,依旧龟速!百思不得其解的我,折腾了一个下午之后,检查了一下被分成二十份儿的网址列表,结果,每 一 个 都 是 一 万 多 条 ! ! !

呼~ 等我平息一下想抽自己的冲动。呼~~好了,下面正式给大家介绍一下我干的傻缺事儿。

*号惨案的始末

所有的网址放在一个dict(字典)中,key是递增的整型,value是网址字串。(事后想想,要是直接放在list里屁事儿都没有了。之所以用dict是惯性使然啊。)通过循环把整个字典分成多个字典的过程中,出现了下面的灵异事件。

>>> li
[{}, {}, {}, {}, {}]
>>> li[2]
{}
>>> li[2].update({2:'hehe'})
>>> li
[{2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}, {2: 'hehe'}]

明明只是给第三个dict增加元素,为什么其他几个也都被改变了?想不通的二傻子第一次带着工作上的问题回家了。在家里的电脑上照原样试了一遍,结果是正常的!像这样:

>>> li2
[{}, {}, {}, {}, {}]
>>> li2[3].update({3:'hehehe'})
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}]

懵逼状态又持续了一个早上。

对一个dict操作,同时改变了其他几个,那说明它们指向的肯定同一个地址。我突然想起前面刚看过的一遍介绍python对象的博文,用id()可以查看对象的身份,也就是它的存储地址。于是我进行了如下操作。

>>> for i in li:
...     print(id(i))
... 
4321485256
4321485256
4321485256
4321485256
4321485256

哑_巴里!一毛一样啊,我*[允悲]。几乎与此同时,我反应过来问题出在创建list的地方。本傻子是这样做的:

>>> li = [{}]*5
>>> li
[{}, {}, {}, {}, {}]
#python的乘`*`很神奇,字符也可以用。
>>> 'a~~'+'pei!'*3
'a~~pei!pei!pei!'
#它是单纯的克隆n倍,所以对可变dict做*就出问题了。

而在家实验的时候,是这样创建:

>>> li2 = []
>>> for i in range(5):
...     li2.append({})
>>> for i in li2:
...     print(id(i))
... 
4321485192
4324359240
4324359816
4324214216
4324360008

[生无可恋.jpg]*666

前一个用乘的方式,是将同一个dict重复5遍,所有这5个其实是同一个。反应过来之后,很快改掉初始的赋值方式,中午吃饭的时间就爬到了所有数据。但是这个不为外人知晓的蠢事萦绕脑中久久无法释怀,必须得说出来,请大家尽情的嘲笑我一秒钟...

唉,这种二笔错误估计就我会犯。借鉴性不大,稍微再说一下可变类型的复制吧。

等号=拷贝

python可变类型数据的复制向来是个麻烦事。简单的用等号“=”赋值给新变量的话,新变量以及它的各个元素和原来的变量是完全一致的。不,它们根本就是同一个东西。

>>> li3 = li2
>>> for i in range(5):
...     print(id(li2[i]),id(li3[i]))
... 
4321485192 4321485192
4324359240 4324359240
4324359816 4324359816
4324214216 4324214216
4324360008 4324360008
>>> print(id(li2),id(li3))
4324199240 4324199240
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}]
>>> li3
[{}, {}, {}, {3: 'hehehe'}, {}]
>>> li3.append('hhhh')
>>> li3
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']

看到没,两个list的地址相同,每个元素的地址也都相同。这种情况下对li3或它的元素做增减替换等操作,结果li和li3都会变。

copy.copy() & copy.deepcopy()

想要复制出一个不同的变量,就要用copy模块。copy又有浅拷贝和深拷贝之分,主要是对于可变类型的影响比较大。

>>> import copy
>>> li4 = copy.copy(li2)
>>> print(id(li2),id(li4))
4324199240 4324371016
>>> for i in range(5):
...     print(id(li2[i]),id(li4[i]))
... 
4321485192 4321485192
4324359240 4324359240
4324359816 4324359816
4324214216 4324214216
4324360008 4324360008

上面这个就是浅拷贝,两个list的地址不同,但是它们中的元素地址相同。所以对元素进行操作还是会影响两个。但是如果是对list操作,比如append(),extend()等,就不会改变原来。效果如下。

>>> li2
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li4
[{}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']
>>> li4[0].update({0:'zero'})
>>> li4
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']
>>> li4.append(444)
>>> li4
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh', 444]
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, 'hhhh']

但是如果是深拷贝的话,新创建的list和它的元素就都相互不影响了。如下:

>>> li5 = copy.deepcopy(li2)
>>> li5
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, {}]
>>> li5.pop(-1)
'hhhh'
>>> li5[2]='aho'
>>> li5
[{0: 'zero'}, {}, 'aho', {3: 'hehehe'}, {}]
>>> li2
[{0: 'zero'}, {}, {}, {3: 'hehehe'}, {}, 'hhhh']

如果用id()查看的话,它们的地址也都不一样。就不再重复做了。

总之呢,用list和dict的时候,再小心都不为过。


原文地址:卖蠢日志 | 一个*号引发的惨案,来自我家微信公号,欢迎关注。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容