我的第一条爬虫

一直都知道爬虫很厉害,也一直都想学,但是也一直拖到现在才开始写。终于终于,今天写了第一条爬虫,开心:D非常感谢莫烦。一激动就决定“赞助”一下我们的“莫烦”大哥。所有的代码 莫烦PYTHON上面都有,我也不当搬运工了。今天还是想在这个学术的,神圣的地方撒撒鸡汤。
2018年已经过去9天了。现在觉着这句话很对“小时候觉得时间过得很慢,过了二十几岁以后,感觉时间真的是转瞬即逝。”18年,17年,每次在两年交接的时候就会傻傻分不清到底是哪一年。所以最近在写日期的时候写成2017年* 月 *日。也许是一种惯性。
惯性不知道算不算是一种“拖延”。因为我觉得自己的拖延症越来越严重了。算是今天写了爬虫的代码的一点感想吧。我发现其实你真正动身去做的时候,很多事情真的没有你想象得那么难。
我之前也尝试过写过,每一次在吹起号角的时候就败下阵来。有时候是士气低迷,有时候是战靴的鞋带没有绑好,有时候是不知道敌人在哪里。
我有很多事情需要去做。但是我常常花太多的时间在“准备”->"放弃"做这些事情上。也可能是,我没有找到做一件事情对的路子。
所以还是特别特别感谢“莫烦大神”,对于带我入门这件事情上,他帮了我很多。比如写爬虫这件事情,首先你要知道学习这个有什么用处,知道:

第一,你为什么要学。

莫烦在视频里show了一下他自己做的悉尼各个区域的租房价格的表格。这一下子就让我有了学习的兴趣。因为毕业以后,我也会租房子,我要是可以像他一样爬取房租数据,一定是一件很cool的事情。所以我决定一定要学爬虫。

第二,要知道你面对的“敌人”是谁

对于爬虫而言,它要爬取的是网页,所以你要大概了解一下网页的大体结构。
是不是很简单易懂

但其实网页的结构是一件很复杂很复杂的事情,我之前也学过一段时间,真的超级复杂。我觉得它就是一个没什么逻辑性的东西。要是搁以前,我估计学到这里,又会钻到这个“大天坑”里,然后捣鼓一段时间,最后放弃。莫烦告诉我们,学习爬虫,你不需要对css语法,html语法有太多的了解,知道个大概就可以了。把我又拉回来一次。

第三,怎么"打"

兵器是什么?工欲善其事,必先利其器。剖析网页python有一利器就是BeautifulSoup。我之前自己看书也看过,但是觉得看和没看没有两样。直到莫烦一句简单明了的话,给BeautifulSoup一个定位:

我们总结一下爬网页的流程, 让你对 BeautifulSoup 有一个更好的定位.
1. 选着要爬的网址 (url)
2. 使用 python 登录上这个网址 (urlopen等)
3. 读取网页信息 (read() 出来)
4. 将读取的信息放入 BeautifulSoup
使用 BeautifulSoup 选取 tag 信息等 (代替正则表达式)

html = urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html,features='lxml')

你可以想象一下,用python登入然后读取出来的网页内容html,经过BeautifulSoup 的“手”,就变成了一道美味的soup啦。
这碗soup里,要什么有什么。你想要<h1>标签的内容

head = soup.find('h1').get_text()

大概的爬虫就是这样一个过程。但是为了更好地击败敌人,兵不厌诈,还需要一些战术。

第四,奇门遁甲

就是我们的正则表达式。这个东西,我之前也学过。但是,用得迷迷糊糊的。(我发现,我看过的东西是挺多的,但是都很零碎,所以很容易就忘)这一次,看了莫烦的教程,然后自己再回忆一下,觉得正则表达式也没有那么复杂了。可能也是读书百遍,其义自现吧。
小抄
img_links = soup.find_all('img',{'src':re.compile(".*?\.jpg")})

利用正则表达式可以找出格式为jpg的图片链接。

第五 ,养兵千日 用兵一时

上面讲到大概就是一个简答爬虫的流程。然后就开始爬简答的百度词条。
代码见 莫烦PYTHON或者是我的github

我的结果
很简单的一个爬虫程序,我知道啥也不是。但是对于我而言,却是一大步。爬虫刚刚孵出,还需要很长的时间去改进。我也会一直更新我的爬虫日记,让它越来越强大!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容