惊了!大牛换了个思路,就让 Pandas 快了 1000x!

Pandas 百问百答第 010 篇。

呆鸟云:书接上文《不会爬,没数据?没关系!3分钟搞定1w+数据,超实用!​》

上文说道,老黄想生成 100 万条模拟数据,呆鸟先测试了一下 10 万条。结果。。。,不是想象中的 1 分钟 18 秒乘以 10 的概念,而是运行了 55 分钟,运行耗时增加了 40 多倍。太吓人了,要是 100 万条,就算不考虑数据越大,速度越慢的前提,哪怕只在 10 万条耗时的基础上提高 40 倍,那也要 2200 分钟。官网上确实也说了 DataFrame 的 append() 函数操作的数据量越大,耗费的时间就越长,但真没想到会长到这种程度。

怎么办?为了提升速度,呆鸟找到了在某知名公司任职的数据分析师 ~ 龙少。

呆鸟:“龙少,您给看下这段代码怎么优化下,能让它的速度快一些?”

龙少沉吟片刻:“你的电脑太慢了,赶紧买台新电脑吧,最好买台式机,内存要 128G 的,别买笔记本,散热不好。”

下图是龙少腿部的最新留影,这里,我们要讲的是算法优化,不是硬件优化,敷衍呆鸟,就是这个下场。

龙少这条路走不通,呆鸟又找到大神松哥求助。

松哥嘟嘟囔囔的说:“我这刚出来吃饭,吃完饭给你回复。”

速度快了 183 倍

三分钟后。。。

松哥发了几行代码过来,:“你就照这个思路做吧,随便写的,先试试”

def get_counterpart(counterpart_dict, source):
    counterpart = counterpart_dict[source]
    return counterpart

sales2 = pd.DataFrame(columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"], index=range(1000000))

sales2['交易日期'] = sales2['交易日期'].apply(lambda row: random_dater('2019-01-01', '2019-12-31'))
sales2['客户ID'] = sales2['客户ID'].apply(lambda row: "C" + str(np.random.randint(1, 1000)).zfill(4))
sales2['售货员'] = sales2['售货员'].apply(lambda row: np.random.choice(list(sales_people)))
sales2['分公司'] = sales2.apply(lambda row: get_counterpart(sales_people, row["售货员"]), axis=1)
sales2['产品'] = sales2['产品'].apply(lambda row: np.random.choice(list(products)))
sales2['单价'] = sales2.apply(lambda row: get_counterpart(products, row["产品"]), axis=1)
sales2['数量'] = sales2['数量'].apply(lambda row: np.random.randint(1, 10000))
sales2['订单金额'] = sales2['单价'] * sales2['数量']

先看下效果,生成 100 万条数据只用了不到 3 分钟! 我 Ca,什么叫大神?这就是大神!

知识点:

  1. 生成一个长度为 100 万条的空 DataFrame,见 index=range(1000000)
  2. 总体思路为使用 apply() 函数,配合 lambda 匿名函数,再生成每列数据;
  3. 为了配合 lambda, 还要写个函数,见下方代码,该函数通过字典的键获取字典的值;
def get_counterpart(counterpart_dict, source):
    counterpart = counterpart_dict[source]
    return counterpart

注意:这段代码,除了使用了 apply() + lambda,计算方式本身并没有特别的变化。

建议大家,觉得代码速度慢的时候,首先想的应该是怎么优化算法,而不只是简单想换台电脑。

真人真事儿,前两年,技术总监在呆鸟提出用 Excel 没法快速处理数据时,给出的建议居然与龙少的意见如出一辙,换台好点的电脑!真是令人崩...溃...啊...

所以,要说松哥不愧是早就实现了百万阅读量的大神,分分钟搞定算法优化。

为了对比,呆鸟还测试了一下生成 10 万条数据的速度,只用了 18 秒,速度快了 183 倍。这只是之前代码生成 1 万条模拟数据耗时的零头。惊了!

还能再快吗?

松哥这种方法已经很快,但呆鸟还不满足,既然看到了这种可能,当然还想更快、更高、更强!

还真行,比起第二种方案大刀阔斧的改进,第三种方案只修改了第一种方案的三行代码。这也是令呆鸟惊讶的地方,如此小的改动,就能把性能提高这么多!

sale = []
for i in range(0, 100000):
    date = random_dater('2019-01-01', '2019-12-31')
    customer_id = "C" + str(np.random.randint(1, 1000)).zfill(4)
    sales_person = np.random.choice(list(sales_people))
    region = sales_people[sales_person]
    product = np.random.choice(list(products))
    price = products[product]
    quantity = np.random.randint(1, 10000)
    revenue = price * quantity
    sale.append([date, customer_id, sales_person,
                 region, product, price, quantity, revenue])
sales3 = pd.DataFrame(sale,columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"])

大家可以看到,生成 10 万条数据只用了 12 秒,比初始方案的速度提升了 275 倍

生成 100 万条数据也只需要 1 分钟 52 秒。这比用初始方案生成 100 万模拟数据估算的耗时 2200 分钟,足足快了 1178 倍,所以本文的标题,不但不能算哗众取宠的标题党,甚至还得说是有些保守了呢。

知识点:

与昨天的初始方案相比,这段代码的区别在于,生成一个空列表,再把添加了数据的列表转换成 DataFrame,除此之外,别的都一样。

到此为止,我们的模拟数据代码终于圆满了,即便是生成一千万的数据,也只需要 20 分钟,终于对得起 Pandas 的处理能力了。

老黄:“我就说嘛,潘大师怎么会这么慢,呆鸟哥,你还得加油啊...”

呆鸟:“。。。。-_-||,少废话,皮痒了吧,要像龙少的腿一样吗!”

本文到此为止,如果还有朋友有更好的解决方案,欢迎给我留言。

感谢老黄、龙少、松哥的倾情出演,尤其是龙少。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容