learning scrapy 读书笔记

通过阅读《learning scrapy》这本书提高自己的爬虫知识水平，记录些觉得比较有意思的地方吧

1 xpath

xpath是查找元素节点的重要工具。入门的话自行百度，下面是几个有意思的例子

任意div下面的a "//div//a"
任意a的文本 "//a/text()"
任意a的href "//a/@href"
任意div下的子节点 "//div/*"
任意含有href属性的a "//a[@href]"
任意含有href属性并且href含有qq的a "//a[contains(@href,"qq")]
任意含有href属性并且href以https开头的a "//a[starts-with(@href,"https)]"
任意含有href属性并且href不以https开头的a "//a[not(starts-with(@href,"https))]"
获得id为firstHeading的h1节点的子节点的span的文案 //h1[@id="firstHeading"]/span/text()
获得任意class含有ltr和skin-vector的节点下的任意子孙节点h1的文案 //*[contains(@class,"ltr") and contains(@class,"skin-vector")]//
h1//text()
获得文案为References 的节点的父节点之后的所有兄弟节点下的a标签 //*[text()="References"]/../following-sibling::div//a

xpath查找小提示：

避免用 @class=“xxx”的方式查找，因为ui改版css class 变动的概率很大，而用contains会好很多
用有特定意义的class定位比通用的好用，例如用 “miaosha” 好过用“green”
3.id通常不会变，而且通常有唯一性，所以能用id定位尽量使用id

2. settings

scrapy 的setting配置是非常重要的一部分，按照功能模块划分一下主要的设置项

2.1 Analysis 分析用

Analysis 的参数

2.1.1 Logging

Scrapy 有不同等级的log： DEBUG (lowest level), INFO,
WARNING, ERROR, CRITICAL (highest level), SILENT(no logging). 可以设置log 文件只接受基本大于等于目标level.通过LOG_LEVEL设置
LOG_STDOUT 是是否所有输出含print 写入日志文件
其他的可自己去查文档

2.1.2 Stats

STATS_DUMP ：默认为True ,是否在结束时将统计数据写入log文件，关于统计数据后面会写
DOWNLOADER_STATS ：默认 True，是否启用下载统计收集
DEPTH_STATS : 默认True，是否收集爬取深度统计信息
DEPTH_STATS_VERBOSE：默认False，收集爬取深度的完整信息
STATSMAILER_RCPTS ：爬取完成后发生统计信息的通知邮箱列表如 ['my@mail.com']

2.1.3 telnet 是在爬取过程中能够访问爬取状态的方式

scrapy 运行过程中能够通过 telnet 控制 pause continue 和 stop
TELNETCONSOLE_ENABLED 控制是否启用telnet ，默认为True
TELNETCONSOLE_PORT 是端口号，不用设置程序会自己分配好
shell启动scrapy后输出

[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023

这样的控制台信息
然后可以通过

telnet localhost 6023

连接

通过

>>> engine.pause()
>>> engine.unpause()
>>> engine.stop()

控制

2.2 Performance性能相关

性能这块后面会细讲，这里只是描述下设置项

Performance性能相关

CONCURRENT_REQUESTS ：并发数
CONCURRENT_REQUESTS_PER_DOMAIN 和CONCURRENT_REQUESTS_PER_IP 顾名思义是控制每个域名和ip的爬取并发数，
如果 CONCURRENT_REQUESTS_PER_IP不为0那么CONCURRENT_REQUESTS_PER_DOMAIN的配置会忽略
DOWNLOAD_TIMEOUT 是request发起后downloader的等待时间，超时取消request，默认180s
DOWNLOAD_DELAY 请求完成到下一次发起的间隔
RANDOMIZE_DOWNLOAD_DELAY Ture 表示对DOWNLOAD_DELAY进行+-%50区间的随机处理
DNSCACHE_ENABLED ：默认Ture 使用内存中的dns缓存

2.3 中断和使用缓存

中断和使用缓存

满足设置好的条件后spider可以自己停止爬取如
CLOSESPIDER_ITEMCOUNT：itempipeline处理了超过xx个item后 spider处理完未处理的任务后停止
CLOSESPIDER_TIMEOUT ：爬取超时 xx秒后停止，0的话为不会因为超时停止
CLOSESPIDER_PAGECOUNT：处理了xx个response后停止
CLOSESPIDER_ERRORCOUNT：发生错误xx次停止如http错误 404 500....，默认不会因为错误停止
如果使用了 HttpCacheMiddleware 的话可以使用缓存设置
HTTPCACHE_ENABLED ：是否使用缓存，默认False
HTTPCACHE_DIR ：缓存路径
HTTPCACHE_POLICY ：Cache策略的实现类，默认是scrapy.extensions.httpcache.DummyPolicy
HTTPCACHE_STORAGE ：缓存的存储方式，默认是 scrapy.extensions.httpcache.FilesystemCacheStorage
HTTPCACHE_DBM_MODULE ：数据库模块默认是anydbm
这一块如果用处大可以独立搞一套

3 Twisted

Scrapy是基于Twisted开发的，了解Scrapy之前学习一下Twisted对于理解也会加强吧
需要记得Twisted是基于事件驱动的网络框架，细节可以自行百度
deferred 是基础单位，可以用来构成事件驱动
简单的用法如下

from twisted.internet import defer
d=defer.Deferred()
print(d.called) #False
d.callback(3)
print(d.called) #True
print(d.result) #3
def addval(v):
    print("inputval is"+str(v))
    return v+1;
d=defer.Deferred()
d.addCallback(addval)

d.callback(3) # 驱动 addval(3)
print(d.result) #4

通过addCallback的方式可以改变回调事件链

from twisted.internet import defer
a=defer.Deferred()
b=defer.Deferred()


def a_callback(v):
    print(v)
    return {"value":v}
def b_callback(v):
    print(v)
    #返回deferred让事件链改变
    return b

def c_callback(v):
    print("ccallback",end=" ")
    print(v)
a.addCallback(a_callback).addCallback(b_callback).addCallback(c_callback)
a.callback(3)
#print 3 然后print {'value': 3}
b.callback(99)
# ccallback 99

DeferredList用来构建事件链，只有参与构建的Deferred 全部有了callback 才会回调callback 事件，

import time
from twisted.internet import defer
from concurrent import futures
def done(v):
    print("done with ",end="")
    print(v)
deferreds=[defer.Deferred() for  x in range(5)]
times=[1,2,2,1]
join=defer.DeferredList(deferreds)
join.addCallback(done)
def timesleep(sleepsecond,x):
    print("sleep %s"%(sleepsecond))
    time.sleep(sleepsecond)
    deferreds[x].callback(x)
    print("%s callbak %s"%(sleepsecond,x))
with futures.ThreadPoolExecutor(8) as pool:
    for x in range(4):
        append=pool.submit(timesleep,times[x],x)
deferreds[4].callback(99)
#全部完成后会打印
#done with [(True, 0), (True, 1), (True, 2), (True, 3), (True, 99)]
#如果使用了 errback ，True会变为False

通过inlineCallbacks 可以进行事件调度，下面的流程就是
d1 callback完，调 next 代码继续走执行 d2 callback next 然后执行return 调用最外层的callback

from twisted.internet import reactor, defer


def loadRemoteData(callback):
    import time
    time.sleep(1)
    callback(1)


def loadRemoteData2(callback):
    import time
    time.sleep(1)
    callback(2)


@defer.inlineCallbacks
def getRemoteData():
    d1 = defer.Deferred()
    reactor.callInThread(loadRemoteData, d1.callback)
    r1 = yield d1

    d2 = defer.Deferred()
    reactor.callInThread(loadRemoteData2, d2.callback)
    r2 = yield d2

    return r1 + r2


def getResult(v):
    print("result=", v)


if __name__ == '__main__':
    d = getRemoteData()
    d.addCallback(getResult)

    reactor.callLater(4, reactor.stop);
    reactor.run()

4 scrapy 程序框架简述

可以先看下scrapy的工作框架图

scrapy的工作框架

我们写的spiders是工作架构的核心，它们用于创建request 、解析response 并且产出items和更多的requests

itemPipeline 是我们用来处理的item的管道
process_item() 可以用来处理item，我们处理完了item 可以return item，让下一个pipeline处理，也可以 raising DropItem exception 以结束这个item的后续处理流程
open_spider() 方法会在初始化spider的回调
close_spider() 方法会在spider结束的时候回调

downloader middlewares 是下载和请求的中间件，默认的下载中间件的源码可以在github上查看 SPIDER_MIDDLEWARES_BASE setting in settings/default_settings.py

4.1 itemPipeline 示例

from datetime import datetime
class TidyUp(object):
def process_item(self, item, spider):
item['date'] = map(datetime.isoformat, item['date'])
return item

然后修改setting.py的内容，满足

TEM_PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 }

properties.pipelines.tidyup.TidyUp为自定义的pipeline的完整类名

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271