在爬100万数据的时候,我发现了爬虫的进阶之路

文章首发于慕课网手记,更多内容请访问个人站点:https://www.donlex.cn

学习最好还是要以需求为驱动才能够快速成长。这是我最近一段时间的体会,其实也是我最近在写爬虫的思考。通过需求,让你处于紧迫的状态,不断学习新的知识,去满足这样那样的需求。这个时候,你会处于一种高度集中的状态,你的学习能力也是最强的时候。

之前的爬虫文章使用的都是一些基础 Python 的知识,特别是在做一些小的项目的时候,运用好那些基础知识就完全够用了。所以如果没有用到新的知识或没有接触到新的知识的时候,我就没有写出来,这就是这么长时间没有写爬虫文章的原因。并且,我感觉我的爬虫技术一直都处在初级阶段,原地踏步,没有一点进步,也就造成了“没话可说”的尴尬地步。

起因

前几周帮别人写了一份爬虫,逻辑不难,步骤也不繁琐,只要简单的几步就可以,但是数据量是我目前接触的最多的一次,将近 100万 的数据量。

就算这条虫子不慌,它爹心里也慌呀!要是中途出现什么情况,没有做好断点续爬的准备的话,那岂不是得从头再来?

还有就是,这么多的数据,在一台机子上爬,效率明显是很慢的,如果学会一点集群和分布式爬虫,使用上,那每一台机子的压力就会小很多。

还有一点能够提高效率的方法就是通过使用进程、线程。这些我也还不是很懂,因为这次的项目需要 Selenium 才能通过验证,所以我也就没有使用,不然肯定也会学一下,不知道 Selenium 中有没有多进程,线程这种东西?

selenium.jpg

再有就是 爬虫的监控异常情况的通知 。爬虫的监控我没有接触过,不过异常情况的通知,我倒是想着通过邮件提醒,虽然简单,但是却也能够达到目的,所以我在做这个项目的时候,使用了一下,感觉还可以,后面可能会详细的写一写。

说爬虫怎么能不说反爬呢?说一下我这次遇到的反爬机制。它的反爬主要是在你登陆的时候,就已经干掉了大部分想要爬取它信息的人了。(因为不能透露太多的信息,所以就用淘宝来举个例子吧,个人感觉难度跟淘宝也是差不多的。)

为什么这么说呢?你可以去试一下淘宝的登陆,看是有多么的难。相信爬过淘宝的都知道,淘宝的ua参数,是经过了算法将一大堆因素组合起来的,想要破解,可能要琢磨到脑壳疼吧。。。

所以只能通过使用 Selenium 进行模拟登陆。但我可以很绝对地告诉你,淘宝能够识别你使用了自动化工具,你的滑块验证码无论怎么刷新,永远都是错误状态,永远不会成功。就像下图一样

Selenium模拟淘宝登录.PNG

我试着使用了网上一种声称能够突破的办法: 使用代理。果然,理想很美满,现实很骨感。滑块验证码是通过了,但是逃不过异地登陆短信验证这一关。

如果想要体验一下我当时的绝望感,可以自己尝试着去搞一下淘宝的数据看下,看一下你能不能成功 “突破上分”

最后

当然,BB了这么一大堆,还是要给一点干货的。那就给个我个人认为 爬虫进阶的方向 吧!

  1. 过硬的反“反爬”能力
  2. 进程与线程
  3. 断点续爬
  4. 分布式
  5. 爬虫监控
  6. 异常通知

这次爬虫,我有一种打通了任督二脉的感觉,这种感觉就好像,那些打王者荣耀厉害的人说的 意识一样 :什么时候该反野,什么时候该团一样。不知道这样讲能不能体会到我醍醐灌顶的那种感觉?

还有一点体会,就是把事情往难了想和往量多了想,你就能找到当下自己所察觉不到的漏洞。当然,往难里想也是需要一定的基础的;但是往量多的方面想,这就没有任何难度了,在脑海中模拟,总能挑出一点瑕疵了吧?

以前听过下面这句话,没有什么深刻的体会;现在,算是真正的理解了。

再大的困难除以13亿,都会变得很渺小!再小的力量乘以13亿,就会变成爱的海洋。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容

  • 分析了好几个小时淘宝的登陆,对其反爬虫方案有了点思路,先记录一下,后面会持续进行分析。 众所周知目前使用selen...
    Python之战阅读 3,425评论 0 17
  • 01 她在回家的班车上吐得昏天黑地。司机师傅从前排扯出一个塑料袋,同事们传了几排座位递到她的手上。匆忙打开,哇一声...
    雪梨和雪柔阅读 524评论 5 4
  • 你养我长大,我陪你到老。 周国平曾说过:“对亲近的人挑剔是本能,但克服本能,做到对亲近的人不挑剔是种教养。” 最好...
    米策阅读 104评论 2 2
  • 订婚的那一天,所有人都离开后,我跟爸爸走回了家。 我跟在爸爸后面,听他一句句的嘱咐,眼泪早已在眼眶里打转,硬是忍着...
    木子不爱糖阅读 250评论 0 0
  • 比如作为资深的销售经理,显性化地分享给销售员,他的目标可以定为 (1)在我的引导下(C),新销售员(A)能够从我的...
    Fly_Catkin阅读 233评论 0 0