爬虫课堂（二十五）|使用CrawlSpider、LinkExtractors、Rule进行全站爬取

在爬虫课堂（二十二）|使用LinkExtractor提取链接中讲解了LinkExtractor的使用，本章节来讲解使用CrawlSpider+LinkExtractor+Rule进行全站爬取。
一、CrawlSpider介绍
Scrapy框架中分两类爬虫，Spider类和CrawlSpider类。Spider类的使用已经讲解了很多，但是如果想爬取某个网站的全站信息的话，CrawlSpider类是个非常不错的选择。CrawlSpider继承于Spider类，CrawlSpider是爬取那些具有一定规则网站的常用爬虫，可以说它是为全站爬取而生。
它除了继承过来的属性（name、allow_domains）外，还提供了新的属性和方法：
1.1、LinkExtractors
class scrapy.linkextractors.LinkExtractor
Link Extractors 的目的很简单：提取链接。每个Link Extractor有唯一的公共方法是 extract_links()，它接收一个 Response 对象，并返回一个 scrapy.link.Link 对象。
Link Extractors要实例化一次，并且 extract_links()方法会根据不同的 Response 调用多次提取链接｡
主要参数如下：

allow：满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。
deny：与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
allow_domains：会被提取的链接的domains。
deny_domains：一定不会被提取链接的domains。
restrict_xpaths：使用XPath表达式，和allow共同作用过滤链接。

关于Link Extractors如何使用可以参考爬虫课堂（二十二）|使用LinkExtractor提取链接这篇文章。
1.2、rules
在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了特定操作。如果多个Rule匹配了相同的链接，则根据规则在本集合中被定义的顺序，第一个会被使用。
Rule类的定义如下：

class scrapy.contrib.spiders.
Rule
(link_extractor,callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None)

主要参数如下：

link_extractor：是一个Link Extractor对象。其定义了如何从爬取到的页面提取链接。
callback：是一个callable或string（该Spider中同名的函数将会被调用）。从link_extractor中每获取到链接时将会调用该函数。该回调函数接收一个response作为其第一个参数，并返回一个包含Item以及Request对象(或者这两者的子类)的列表。
cb_kwargs：包含传递给回调函数的参数（keyword argument）的字典。
follow：是一个boolean值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow默认设置True，否则默认False。
process_links：是一个callable或string（该Spider中同名的函数将会被调用）。从link_extrator中获取到链接列表时将会调用该函数。该方法主要是用来过滤。
process_request：是一个callable或string（该spider中同名的函数都将会被调用）。该规则提取到的每个request时都会调用该函数。该函数必须返回一个request或者None。用来过滤request。

二、CrawlSpider使用
假设我们要爬取简书的所有用户的信息（用户名称、关注数、粉丝数、文章数、字数、收获喜欢数），如下图25-1所示的用户主页：

图25-1

用户的主页地址为https://www.jianshu.com/u/c34455009dd8
2.1、定义Item文件

from scrapy.item import Item, Field

# 简书的全站用户信息
class JianshuUserItem(Item):
    # 用户名称
    name = Field()
    # 关注数
    followNumber = Field()
    # 粉丝数
    fansNumber = Field()
    # 文章数
    articleNumber = Field()
    # 字数
    wordCount = Field()
    # 收获喜欢数
    likeNumber = Field()

2.2、定义pipeline文件

import json
# 设置字符集，防止编码参数出错
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from scrapy.exporters import JsonItemExporter

class DataSubmitJsonFilePipeline(object):
    def __init__(self):
        self.file = open('jianshu.json', 'wb')

    # 把item写入JSON文件
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.close()

2.3、定义setting文件

ITEM_PIPELINES = {
    'tutorial.pipelines.DataSubmitJsonFilePipeline': 1,
}

2.4、编写spider文件
首先需要找出用户个人主页链接的通用字符，从https://www.jianshu.com/u/c34455009dd8及更多的其他用户个人主页URL分析得知通用字符为/u/。

# response中提取链接的匹配规则，得出符合条件的链接
pattern = '.*/u/*.'
pagelink = LinkExtractor(allow=pattern)

分析个人主页的HTML代码，得知用户的用户名称、关注数、粉丝数、文章数、字数、收获喜欢数等字段都是在//div[@class='main-top']中，如下图25-2所示：

图25-2

进一步分析HTML，如下图25-3所示：

图25-3

编写提取用户名称、关注数、粉丝数、文章数、字数、收获喜欢数等值的代码如下：

# 用户名称
item['name'] = each.xpath("./div[@class='title']/a/text()").extract()[0]
# 关注数
item['followNumber'] = each.xpath("./div[@class='info']/ul/li[1]//a/p/text()").extract()[0]
# 粉丝数
item['fansNumber'] = each.xpath("./div[@class='info']/ul/li[2]//a/p/text()").extract()[0]
# 文章数
item['articleNumber'] = each.xpath("./div[@class='info']/ul/li[3]//a/p/text()").extract()[0]
# 字数
item['wordCount'] = each.xpath("./div[@class='info']/ul/li[4]//p/text()").extract()[0]
# 收获喜欢数
item['likeNumber'] = each.xpath("./div[@class='info']/ul/li[5]//p/text()").extract()[0]

最后完整代码如下：

#!/usr/bin/env python
# -*- coding: UTF-8 -*-

# **********************************************************
# * Author        : huangtao
# * Email         : huangtao@yimian.me
# * Create time   : 2018/4/1 下午6:34
# * Last modified : 2018/4/1 下午6:34
# * Filename      : jianshu_spider_crawl.py
# * Description   : 
# **********************************************************

# 导入链接匹配规则类，用来提取符合规则的链接
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from tutorial.items import JianshuUserItem

class JianshuCrawl(CrawlSpider):
    name = "jianshu_spider_crawl"
    # 可选，加上会有一个爬取的范围
    allowed_domains = ["jianshu.com"]
    start_urls = ['https://www.jianshu.com/']

    # response中提取链接的匹配规则，得出符合条件的链接
    pattern = '.*jianshu.com/u/*.'
    pagelink = LinkExtractor(allow=pattern)

    # 可以写多个rule规则
    rules = [
        # 只要符合匹配规则，在rule中都会发送请求，同时调用回调函数处理响应。
        # rule就是批量处理请求。
        Rule(pagelink, callback='parse_item', follow=True),
    ]

    # 不能写parse方法，因为源码中已经有了，会覆盖导致程序不能跑
    def parse_item(self, response):
        for each in response.xpath("//div[@class='main-top']"):
            item = JianshuUserItem()
            # 用户名称
            item['name'] = each.xpath("./div[@class='title']/a/text()").extract()[0]
            # 关注数
            item['followNumber'] = each.xpath("./div[@class='info']/ul/li[1]//a/p/text()").extract()[0]
            # 粉丝数
            item['fansNumber'] = each.xpath("./div[@class='info']/ul/li[2]//a/p/text()").extract()[0]
            # 文章数
            item['articleNumber'] = each.xpath("./div[@class='info']/ul/li[3]//a/p/text()").extract()[0]
            # 字数
            item['wordCount'] = each.xpath("./div[@class='info']/ul/li[4]//p/text()").extract()[0]
            # 收获喜欢数
            item['likeNumber'] = each.xpath("./div[@class='info']/ul/li[5]//p/text()").extract()[0]

            # 把数据交给管道文件
            yield item

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,907评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,546评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,705评论 0赞 238
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,624评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,940评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,371评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,672评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,396评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,069评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,350评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,876评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,243评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,847评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,004评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,755评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,378评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,266评论 2赞 259

爬虫课堂（二十五）|使用CrawlSpider、LinkExtractors、Rule进行全站爬取

推荐阅读更多精彩内容