python set()去重的底层原理

一、set去重简单实例

ls = [1,2,3,1,2]print(set(ls))

我们知道对于一个列表最简单的去重方法就是直接调用set函数,利用集合元素的唯一性,就可以做到去重。但是,这个底层原理究竟是什么样的却一直半解。

且看下面剖析

二、重新set实现机制

class Foo:

    def__init__(self,name,count):

        self.name = name

        self.count = count

    def__hash__(self):

        print("%s调用了哈希方法"%self.name)

        return hash(id(self))

    def__eq__(self, other):

        print("%s调用了eq方法")

        ifself.__dict__== other.__dict__:

            return True

        else:return False

f1 = Foo('f1',1)

f2 = Foo('f2',2)

f3 = Foo('f3',3)

ls = [f1,f2,f3]print(set(ls))

从上面可以看出,set方法就是去调用hash方法,然后根据哈希值一不一样就行去重判断,但是事实就是样吗?且看下面程序。


class Foo:

    def__init__(self,name,count):

        self.name = name

        self.count = count

    def__hash__(self):

        print("%s调用了哈希方法"%self.name)

        return hash(self.count)

    def__eq__(self, other):

        print("%s调用了eq方法"%self.name)

        returnself.__dict__== other.__dict__f1 = Foo('f1',1)

f2 = Foo('f2',1)

f3 = Foo('f3',3)

ls = [f1,f2,f3]print(set(ls))

我看可以看出,实际上f1,f3的哈希值是相等的,但是set并没有这么简单就判断f1,f3是重复的,而是进一步通过eq方法判断这两个值是否相等,只有相等时才会认为这两个之间实际上是同一个。为了验证上面的说法,我们来看看下面的代码。

f1 = Foo('f1',1)

f2 = Foo('f1',1)

f3 = Foo('f3',3)

ls = [f1,f2,f3]print(set(ls))

可以看出去重后,只有两个元素,所以上面说法得证。

三、结论

set的去重是通过两个函数__hash__和__eq__结合实现的。1、当两个变量的哈希值不相同时,就认为这两个变量是不同的2、当两个变量哈希值一样时,调用__eq__方法,当返回值为True时认为这两个变量是同一个,应该去除一个。返回FALSE时,不去重

 四、应用场景

 需求

有一个公司,现有100个员工,由于数据库不完善,使用时间比较长,里面有很多重复数据需要清除。具体需求如下:

每个员工的属性有:姓名,性别,年龄,部门。 由于年龄和部门都会发生变化,所以现在认为只要两个员工之间姓名和性别一样,就认为是同一个人。

请实现员工去重:

class Staff:

    def__init__(self,name,gender,age,department):

        self.name = name

        self.gender = gender

        self.age  = age

        self.department = department

    def__hash__(self):

        returnhash(self.name+self.gender)

    def__eq__(self, other):

        return True

ls = ['zs','ls','ww','zq']

gender_list = ['man','femal']

staff_list = []foriinrange(100):

    staff_list.append(Staff(ls[i%4],gender_list[i%2],i,'class'))print(set(staff_list))print([(i.name,i.gender)foriinset(staff_list)])






set集合去重机制

set集合去重机制:先调用hash,若发现hash出的内存地址已被占用,会再次调用eq比较内容是否相同.

__hash__对与同一个值的同一次运算的结果是相同的

class Employee:

    def __init__(self,name,age,sex,partment):

        self.name = name

        self.age = age

        self.sex = sex

        self.partment = partment

    def __hash__(self):

        return hash('%s%s'%(self.name,self.sex))

    def __eq__(self, other):

        if self.name == other.name and self.sex == other.sex:

            return True

employ_lst = []

for i in range(200):

    employ_lst.append(Employee('alex',i,'male','python'))

for i in range(200):

    employ_lst.append(Employee('wusir',i,'male','python'))

for i in range(200):

    employ_lst.append(Employee('taibai', i, 'male', 'python'))


# print(employ_lst)

employ_set = set(employ_lst)

for person in employ_set:

    print(person.__dict__)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,618评论 0 10
  • 面向对象进阶 isinstance和issubclass isinstance(obj,cls)检查是否obj是否...
    go以恒阅读 448评论 0 0
  • Python语言特性 1 Python的函数参数传递 看两个如下例子,分析运行结果: 代码一: a = 1 def...
    伊森H阅读 2,971评论 0 15
  • Python语言特性 1 Python的函数参数传递 看两个如下例子,分析运行结果: 代码一: a = 1 def...
    时光清浅03阅读 443评论 0 0
  • 公募基金:银行手续费不打折;诺亚货币基金无手续费,其他类型最低一折起; 二级市场阳光私募:银行品种不多;诺亚各种阳...
    理财小囡阅读 580评论 0 0