Scrapy 学习笔记 -- 解决分页爬取的问题

Scrapy 是专门用来爬取网站数据的应用框架。爬取一个网站的数据,无非是从一个地方开始,拿到链接,读取页面,分析页面,拿到需要的数据,然后再存储下来,最后再循环这一步。过程挺好理解的,借一张图来说明 Scrapy 的工作流程:

Scrapy 框架图

分析说明,可以看下这里:

http://www.jianshu.com/p/a8aad3bf4dc4

相对于这些理论性的东西,我考虑更多的是如何解决实际问题。有一段时间我对用 Python 写爬虫挺感兴趣的,但也只是爬一个页面的数据,当遇到翻页问题的时候,就拿它没有什么办法了。我早听说过 Scrapy 这个框架,但却认为还是 Geek 点好,自己写多酷呀,不过事实证明,水平是有限的,真搞不出来。当使用 Scrapy 时,才发现其真的强大!

这几天 ,我想做一个可以学习古诗的App,其核心的展示功能是做出来了,可以是没有数据呀。想过自己每天添加几首,但这事太麻烦,还是想弄点现成的,这样后期就不用太费事了。于是想到做一个爬虫来弄数据源。

我的目标是一个名为「古诗文网」的站点,收录的诗文很多,光古诗都四万多首。可惜这个站没有现成的 API 可用,不然也不费这事了。我只想拿到古诗这部分内,流程是这样的:

处理流程

平时很少画这些图,希望能够把问题说清楚。

「古诗第一页」,其实是一个爬虫入口,这是一个列表页。局部是这样的:

屏幕快照 2016-01-03 09.51.28.png

每页有十项,我需要拿到每一项的数据的链接,同时还需要拿到「下一页」的链接,这一过程,交由「页面分析器」处理。这项拿到之后,就可以将数据的链接传递给「单页分析器」处理拿到每首诗的详细数据了。于是在 Spider 中,我需要定义好入口,写出两个析器。

  1. 入口:
    start_urls = [
        'http://so.gushiwen.org/type.aspx?p=1&x=%e8%af%97',
    ]
  1. 列表页面分析器:
    处理两件事,一件是分析页面,拿数据的链接,交给 self.parse_content()处理,另一个就是拿到下一页,由于和入口结构一样的,只需要交由本身再进行分析,处理即可。调用方法,使用的是:
class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

这个方法好长,不过我只传了两个参数进去,一个就是需要处理的 URL,还有就是回调的函数。这一步明白之后,代码就容易看明白了。

    def parse(self, response):
        '''拿到页面上的链接,给内容解析页使用,如果有下一页,则调用本身 parse() '''
        self.log("===========================| %s |" % response.url)
        song_list = response.css('div.sons').xpath('p[1]/a')
        for song in song_list:

            url = urljoin(SITE_URL, song.xpath('@href').extract()[0])
            self.log('gushi_url: %s' % url)
            ## 将得到的页面地址传送给单个页面处理函数进行处理 -> parse_content()
            yield scrapy.Request(url, callback=self.parse_content, headers=headers)

        ## 是否还有下一页,如果有的话,则继续
        next_pages = response.css('div.pages').xpath('./a[@style="width:60px;"]/@href')

        if next_pages:
            next_page = urljoin(SITE_URL, next_pages[0].extract())
            self.log('page_url: %s' % next_page)
            ## 将 「下一页」的链接传递给自身,并重新分析
            yield scrapy.Request(next_page, callback=self.parse, headers=headers)
  1. 单页分析器:
    def parse_content(self, response):
        '''将得到的单个作品的页进行分析取值'''

        self.log('gushi_detail_url: %s' % response.url)
        item = GushispiderItem()
        item['link'] = response.url
        item['name'] = response.css('div.son1 h1').xpath('text()').extract()[0]
        item['dynasty'] = response.xpath('//div[@class="son2"]/p[1]/text()').extract()[0]
        try:
            author = response.xpath('//div[@class="son2"]/p[2]/a/text()').extract()[0]
        except:
            author = '佚名'
        item['author'] = author
        content = response.xpath('//div[@class="son2"]')[1].extract().strip().split('\n')[20:-1]
        item['content'] = '\n'.join(content).strip()

        yield item

代码中对于页面结构的分析部份花的时候挺多的,其实说起来技术性的东西是不多的,只是需要有点耐心,仔细一点就OK了。在理结构的时候,可以使用浏览器来辅助,我是将 Safari 与 Chrome 结合起来用。在 Safari 中的「元素检查」,点击结构中的项时,上面就会有一层层的CSS结构,在使用可以使用CSS选择器来获得数据。

屏幕快照 2016-01-03 10.04.29.png

对于 Chrome,则是 XPath 结构,可以将这样的结构复制出来:

屏幕快照 2016-01-03 10.05.19.png

比如,我复制的这个结构:

/html/body/div[3]/div[1]/div[14]/p[1]/a

这个结构是从最顶级开始的,我们在使用的时候,其实没有必要这么长的,对于一个级中多个相同元素,XPath是按从0到1的顺序编号的, 如/html/body/div[3]所表示的意思是/html/body下面的第三个div,其它的以此方法类推即可,不过如果一个 HTML 中如果有 class的话,我还是喜欢用 div[@class="CLASSNAME"]这样的方法来取,直观明子,不用一个个数顺序。

有了这两个工具,编写页面分析器的工作难度确实降了不少。但如果每次编完代码就跑一次,这样调试还是挺麻烦的,有个小技巧,Scrapy 提供了一个Shell功能,可以直接在终端下面命令行方式来编写分析规则,启动方法:

$ scrapy shell PAGE_URL

启动之后,会得到一个名为 response的变量,就可以对数据进行解析了。

屏幕快照 2016-01-03 10.14.47.png

反复尝试,我自己也不熟练,编写这些代码花了不少时间。

当爬用多个层级的页面时,就可以使用这种式法来构建代码,这里我爬的是两级的,所以写了两个分析器,如果下面存在第三级,则只需要再按需求编写一个方法即可。这次才算是搞明白了该如何解决多级爬取分析的问题了。

不过仍有一些问题没有搞定的。现在许多的网站是不允被爬取的,我在爬古诗文网的时候,最多也只爬到四百多条,而后面就开始出现 TCP 超时。尽管我设置了 4s 的爬取延时,仍没多大效果。Scrapy 官方给了一些解决办法,但我还没来得及研究。

再有一个问题,对于这种结果的数据:

<div>
  <h1>Header</h1>
  <p>text</p>
  <p>text</p>
  <p>text</p>
</div>

我想拿到所有的 p 这个 Tag 内的内容,而每次 p 的个数又不一样,我的处理办法是拿到所有div里的内容,再按段拆成数组,取中间需要的部份,像这样:

content = response.xpath('//div[@class="son2"]')[1].extract().strip().split('\n')[20:-1]
item['content'] = '\n'.join(content).strip()

但问题时,当p里再出现 HTML 代码时,就管不了了,再使用正则表达式提取?

先这样吧,早上起来又把爬虫跑了一次,但到一百多次的时候就「熄火」了,也没啥错误提示,这会正在跑,但却只有一百多条数据,还早着呢。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容