「Scrapy」爬虫状态反馈组件 v1.0.0

爬虫服务在服务器上跑着，心里面难免会犯嘀咕，
爬虫死掉了怎么办？
爬虫漏了数据怎么办？
爬虫被网站封禁了怎么办？
目标网站挂了怎么办？
返回页面错误或被跳转怎么办？
...

以上来自一个被迫害妄想症患者的自白(误)
一次性爬取数据可以通过人工看日志来判断，不行就多爬几遍，
但如果是放在服务器上定时爬取的服务怎么办？尤其是已经部署在Docker中的爬虫服务。
如果每天都登进服务器查看Scrapy本地的日志信息，还是很麻烦的。
那么我们就需要一个特定的日志来存放我们的统计数据，每天爬取完毕后发送邮件给管理员。
这样的话爬虫出现问题时管理员就能很快知道，还要能够统计爬取的数据。
本文主要描述尝试在Scrapy爬虫的过程中构建工具的思路与体验，代码写的太水就算了(捂脸)
在Scrapy框架中本身内置Logging，但因为是初学Scrapy，不会构建自己的框架。
因为Logging模块「Level Info」输出就会多出很多无用的信息，排版不清晰和没法提醒等问题。
所以在Scrapy.logging输出日志到文件的基础上，写了自己的日志统计工具来监控爬虫的状态。

设计思路

在爬虫书写的过程中遇到的问题还是很多的，比如：

目标网站宕机或请求错误(404,500,503)
指定DOM不存在或Response.text返回错误内容
网站请求池过载
触发假数据或IP被封禁
数据库报错或操作失败
...

除此之外还希望能够统计以下的数据，比如：

爬取成功的分页条数
爬过的信息条数
已有数据的重复条数
爬虫开始时间 / 结束时间 / 耗时
...

图的左边是爬虫的基本流程，中间部分是触发事件，右侧是执行的统计操作

整理之后得到以下JSON格式来存储统计信息

stat.log = {
    'time': {                # 全局时间
        'start_time': 0,         # 爬虫开始时间
        'end_time': 0,           # 爬虫结束时间
        'consume_time': 0,       # 爬虫总耗时
    },
    'spider1': {             # 爬虫1的信息
        'request_sucess': 0,     # 分页请求成功
        'request_error': 0,      # 分页请求失败
        'data_crawl': 0,         # 爬过的数据项 (爬虫发现的总条目
        'data_new': 0,           # 新增的数据项 (不重复并成功写库的
        'data_error': 0,         # 错误的数据项 (数据项内容请求错误的
        'data_illegal': 0,       # 违规的数据项 (数据项格式检查错误的
        'data_repeat': 0,        # 重复的数据项 (数据库中已有重复数据
        'db_error': 0,           # 数据库错误项 (数据库连接错误等
        'db_operate': 0,         # 数据库操作项 (读写等操作返回值异常
    },
    'spider2': {             # 爬虫2的信息
        'request_success': 0,    # ...
        # ...
    }
    # ...
}

收集反馈

Scrapy的全局执行可以异步执行所有爬虫，
在打开爬虫前初始化时间，结束后记录结束时间并计算耗时

Scrapy管道(pipelines.py)中有从父类继承来的方法 open_spider()，
在管道中实例化类，实例化后存储json中初始化对应数据字段。
从数据库中提取已爬取的条数，并打印反馈。

Scrapy中间件(middlewares.py)中爬虫打开和页面请求进行标注。
spider_opened() 触发显示爬虫打开。
process_spider_input() 当页面请求后触发方法，判断如果是200成功请求，记录请求成功。
在记录请求成功后输出当前爬虫的json日志，防止爬虫进程意外中断看不到记录的情况。
process_spider_exception() 当页面404,500,503...异常时触发该方法，记录请求错误。

在爬虫执行中判断数据的重复/缺少字段/错误/新增等情况

日志输出

日志的输出情况如下

日志的结尾的输出

完整代码

代码写的实在太糟糕了，初学见谅

# statistics.py
# update /18.03.12.1

import time
import json
import logging

class Statistics():
    CUR_LOG = {
        'time': {
            'start_time': 0,  # 开始时间
            'end_time': 0,  # 结束时间
            'consume_time': 0,  # 共耗时
        },
        # 'spider1': {
        #     'request_sucess': 0,  # 请求成功(分页数)
        #     'request_error': 0,  # 请求错误
        #     'data_crawl': 0,  # 爬取到的数量
        #     'data_new': 0,  # 获取到的新数据
        #     'data_error': 0,  # 数据出错
        #     'data_illegal': 0,  # 数据格式错误
        #     'data_repeat': 0,  # 重复的数据
        #     'db_error': 0,  # 数据库系统错误
        #     'db_operate': 0,  # 数据库操作返回错误
        # },
    }
    logger = logging.getLogger('stat')

    def __init__(self, name=None):
        if name:
            self.CUR_LOG[name] = {}
            self.CUR_LOG[name]['request_success'] = 0
            self.CUR_LOG[name]['request_error'] = 0
            self.CUR_LOG[name]['data_crawl'] = 0
            self.CUR_LOG[name]['data_new'] = 0
            self.CUR_LOG[name]['data_error'] = 0
            self.CUR_LOG[name]['data_illegal'] = 0
            self.CUR_LOG[name]['data_repeat'] = 0
            self.CUR_LOG[name]['db_error'] = 0
            self.CUR_LOG[name]['db_operate'] = 0

    def start_time(self):
        self.CUR_LOG['time']['start_time'] = time.time()
        self.logger.warning('{: <6s}'.format('all') \
                            + '{: <17s} '.format('[start_time]') \
                            + time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime()))

    def end_time(self):
        self.CUR_LOG['time']['end_time'] = time.time()
        self.CUR_LOG['time']['consume_time'] \
            = self.CUR_LOG['time']['end_time'] \
              - self.CUR_LOG['time']['start_time']

        self.CUR_LOG['time']['start_time'] \
            = time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime(self.CUR_LOG['time']['start_time']))
        self.CUR_LOG['time']['end_time'] \
            = time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime(self.CUR_LOG['time']['end_time']))

        hours = '{:0>2s}'.format(str(int(self.CUR_LOG['time']['consume_time'] // 3600)))
        minutes = '{:0>2s}'.format(str(int((self.CUR_LOG['time']['consume_time'] // 60) % 60)))
        seconds = '{:0>2s}'.format(str(int(self.CUR_LOG['time']['consume_time'] % 60)))
        self.CUR_LOG['time']['consume_time'] = hours + ':' + minutes + ':' + seconds
        self.logger.warning('{: <6s}'.format('all') \
                            + '{: <17s} '.format('[end_time]') \
                            + time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime()))
        self.logger.warning('{: <6s}'.format('all') \
                            + '{: <17s} '.format('[consume_time]') \
                            + self.CUR_LOG['time']['consume_time'])

    def add_request_success(self, name, msg='', num=1):
        self.CUR_LOG[name]['request_success'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[request_success]') \
                            + str(msg).replace('\n', ' '))

    def add_request_error(self, name, msg='', num=1):
        self.CUR_LOG[name]['request_error'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[request_error]') \
                            + str(msg).replace('\n', ' '))

    def add_data_crawl(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_crawl'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_crawl]') \
                            + str(num))

    def add_data_new(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_new'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_new]') \
                            + str(msg).replace('\n', ' '))

    def add_data_error(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_error'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_error]') \
                            + str(msg).replace('\n', ' '))

    def add_data_illegal(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_illegal'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_illegal]') \
                            + str(msg).replace('\n', ' '))

    def add_data_repeat(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_repeat'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_repeat]') \
                            + str(msg).replace('\n', ' '))

    def add_db_error(self, name, msg='', num=1):
        self.CUR_LOG[name]['db_error'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[db_error]') \
                            + str(msg).replace('\n', ' '))

    def add_db_operate(self, name, msg='', num=1):
        self.CUR_LOG[name]['db_operate'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[db_operate]') \
                            + str(msg).replace('\n', ' '))

    def json_display(self, name=None):
        if name:
            self.logger.warning('{: <6s}'.format(name) \
                                + '{: <17s} '.format('[json_display]') \
                                + str(self.CUR_LOG[name]))
        else:
            self.logger.warning('{: <6s}'.format('all') \
                                + '{: <17s} \n'.format('[json_display]') \
                                + str(json.dumps(self.CUR_LOG, indent=4)))

    def crawled_display(self, name, msg=''):
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[crawled_number]') \
                            + str(msg))

    def open_display(self, name, msg=''):
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[opened]'))

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,825评论 4赞 377
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,887评论 2赞 308
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 112,425评论 0赞 255
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,801评论 0赞 224
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,252评论 3赞 299
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,089评论 1赞 226
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,216评论 2赞 322
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 31,005评论 0赞 215
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,747评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,883评论 2赞 255
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,354评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,694评论 3赞 265
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,406评论 3赞 246
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,222评论 0赞 9
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,996评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,242评论 2赞 287
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 36,017评论 2赞 281

「Scrapy」爬虫状态反馈组件 v1.0.0

设计思路

收集反馈

日志输出

完整代码

推荐阅读更多精彩内容