Python requests+gevent+BeautifulSoup lxml 干点啥-加点速

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

目标就是能爬知乎,太可怕了

最近工作中有个需求是抓一些数据数据量上万讲真以前都是玩玩没实战所以来这个需求的时候我内心其实有点激动

装逼模式已开启

然后我开始装逼了用request + BeautifulSoup(html) 用这两货实现
requests请求网络数据加载
BeautifulSoup(html) 自在解析器解析网络获取数据
啪啦啪啦啪啦啪啦没几下代码撸完了顿时感觉登上人生巅峰
开始运动哦不对是运行结果这货第一页(20个详情)数据用了快4分钟
要不是中途有些log打印我都以为他死了

懵逼ing

我一想这么不行啊我特么600页的数据这能玩
然后我就想每次数据获取一整个套路下来
就是请求--->IO读取--->解析
能优化速度的地方就是 IO读取解析
有方向那就开始说说解析
本来用的BeautifulSoup 自带的解析器文档上说了速度慢
既然说了速度慢肯定有速度快的我就看了一下 lxml速度快需要安装C语言库
解析属于高度计算对于IO密集型与CPU密集来讲属于CPU密集型任务越底层的语言越有优势所以这里C语言会很快
然后就开始安装 lxml
果不其然报错了当时在公司做是Windows 说是缺少一个啥子具体不记得(反正是微软的 )
如果Windows安装出相关问题可以先用pip install wheel安装这个然后下载lxml相关的whl文件直接下载下来安装就行
这里要选择版本什么的
相关whl下载地址进去 ctrl+F搜索就行注意版本号和你Py版本 34 35 27 啥的
http://link.zhihu.com/?target=http%3A//www.lfd.uci.edu/~gohlke/pythonlibs/%23lxml
一顿折腾lxml终于安装OK
然后 requests+BeautifulSoup(lxml) 在运动一页50S
当时我就给吓尿了效率直接快10倍号码
真是 ‘搏一搏单车变摩托’

66666翻天

然后我又感觉我登上了人生巅峰电脑挂着下班回家
第二天一脸懵逼说好的数据呢中途不知道咋的卡着不动了一晚上没抓完本来以为一晚上10个小时差不多能抓完的结果来这么一出
然后想着我总不能又跑一次等10个小时吧没那闲功夫看着啊
然后想着能不能再IO等待那里做处理我想着请求过去了本地堵塞等着要是等待的时候干点别的比如开启另外的请求这样是不是效率很高很多
然后就查了一下多线程多进程
结果整出来gevent 异步框架里面用的协程(也是单线程不过可以跳度切换任务)
然后加上这个gevent之后
卧槽 ----直接每页变成 10S

喜极而泣

最后完成那600页数据的读取在这个基础还加上了进程池pool
200页一个进程反正最后 3 40分钟就拿到了12000条数据

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

requests 比起自带的urllib2啥的方便很多这个没啥说的可以自己去看看
gevent 异步框架今天也是刚用用法也简单等会看代码
BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find
这里先贴两张图糗事百科数据获取的50页数据的情况 find VS select 貌似差不多没做详细对比不过我感觉还是find快些吧毕竟select返回list 大数据量下还是要测试一波两个都挺好用的看习惯

find方法

select方法
然后一看也有106秒左右为什么也不快因为没用代理IP(今天去相关网站找的一些用进去很慢而且很多不能用先放着) 然后如果访问太快直接返回我503 所以每请求一页 sleep(1) s 也就是说理论上如果不停这1S我50页应该是最多66秒左右能跑完也就是平均一页1S多一点
就算现在停了在异步和lxml的处理下大概也就2S一页其实算可以啦

再贴一记打印内容的

详细获取数据打印

分析图

全部代码图一点点 (后面放github后会更新文章)

  __author__ = 'Daemon1993'

  import gevent
  import requests
  import time
  from bs4 import BeautifulSoup
  from bs4 import SoupStrainer

  SP = 1
  Count=0

  def getHtmlByFind(baseurl, page):
      url = baseurl + str(page)
      r = requests.session()

      html = r.get(url, timeout=5)

#如果状态不正确 这里目的503 暂停时间增大一点
if (html.status_code != 200):
    global SP
    SP += 0.5
    return

#减少内存压力 取出我们需要的那块 不用全部
only_div_tag = SoupStrainer(id="content-left")

# 先拿到这一块
data = BeautifulSoup(html.text, "lxml",parse_only=only_div_tag)

for tag in data.find_all("div", class_="article block untagged mb15"):
    name=tag.find("img").get('alt')
    content=tag.find("div",class_="content").text.strip()
    global Count
    Count+=1
    pass
    # print("\\n 用户:{0} \\n {1}".format(name,content))

#每请求一次 睡眠一下
time.sleep(SP)

  def getHtmlBySelect(baseurl, page):
      url = baseurl + str(page)
      r = requests.session()

html = r.get(url, timeout=5)

if (html.status_code != 200):
    global SP
    SP += 0.5
    return

#减小内存压力
only_div_tag = SoupStrainer(id="content-left")

# 先拿到这一块
data = BeautifulSoup(html.text, "lxml",parse_only=only_div_tag)

for tag in data.select('div[class="article block untagged mb15"]'):
    name=tag.select('img')[0].attrs.get('alt')
    content=tag.select('div[class="content"]')[0].get_text().strip()
    global Count
    Count+=1
    print("\\n 用户:{0} \\n\\n {1}".format(name,content))

#每请求一次 睡眠一下
time.sleep(SP)

def useFind(baseurl):
    start=time.time()
    global  Count
    Count=0
tasks = [gevent.spawn(getHtmlByFind, baseurl, index) for index in range(1, 50)]
gevent.joinall(tasks)

elapsed=time.time()-start
print('getHtmlByFind time {0}  size{1}'.format(elapsed,Count))

def useSelect(baseurl):
start=time.time()
global  Count
Count=0
#gevent.spawn 加入任务方法
tasks = [gevent.spawn(getHtmlBySelect, baseurl, index) for index in range(1, 50)]
#全部加入队列开始 处理 
gevent.joinall(tasks)

elapsed=time.time()-start
print('getHtmlBySelect time {0}  size{1}'.format(elapsed,Count))

  if __name__ == '__main__':
      baseurl = "http://www.qiushibaike.com/8hr/page/"
      #useFind(baseurl)
      useSelect(baseurl)

主要看看 BeautifulSoup 的用法

先分析网页结构如何拿到我们想要的 1是每一个 2是有头像地址和名字 3是content内容
如下图取每个1的 2 3就行

find分析结构图

find实现

跟就结构分析大题思路
1处是一个列表 ---> find_all("div",class__="className")--List
然后对每个集合中取出 img 和 div[class="content"]的内容代码如下
for tag in data.find_all("div", class_="article block untagged mb15"):
name = tag.find("img").get('alt')
content = tag.find("div", class_="content").text.strip()

select实现

这里要先记住一点 select 每次返回都是list 在你能控制的住的情况下取[0]
同样分析你会发现其实差不多只是写法上有些不同可以仔细看看两者的写法
for tag in data.select('div[class="article block untagged mb15"]'):
name = tag.select('img')[0].attrs.get('alt')
content = tag.select('div[class="content"]')[0].get_text().strip()

文档很多但是下面这个我觉得看着最舒服BeautifulSoup 相关文档
下面图片所示的好像是正规文档
不知道为啥也许是配色看的我头晕
正规军团

大学友
童真年代
画画出我的梦
梦里的天空
总会有彩虹
画画一只蜜蜂
乘着晚风

最后编辑于：2017.12.03 09:13:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269

Python requests+gevent+BeautifulSoup lxml 干点啥-加点速

很久没有写新的内容了，看最近的一篇 都有2/3个半年了 最近又看了一些爬虫文章 还是想深入研究下

夜深了 就是容易 说废话 铺垫做完了 现在 来讲讲这些东西

requests 比起自带的urllib2啥的 方便很多 这个没啥说的 可以自己去看看

gevent 异步框架 今天也是刚用 用法也简单 等会看代码

BeautifulSoup 超级6 叼炸天 去从网页数据中获取你要的数据 前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客 主要介绍的 用糗事百科 的数据 来看看咋使用select 和 find

主要看看 BeautifulSoup 的用法

find实现

select实现

推荐阅读更多精彩内容

很久没有写新的内容了，看最近的一篇都有2/3个半年了最近又看了一些爬虫文章还是想深入研究下

夜深了就是容易说废话铺垫做完了现在来讲讲这些东西

requests 比起自带的urllib2啥的方便很多这个没啥说的可以自己去看看

gevent 异步框架今天也是刚用用法也简单等会看代码

BeautifulSoup 超级6 叼炸天去从网页数据中获取你要的数据前面用Xpath我觉得好用(主要还是最开始用re) 现在这个是首选这里也是这篇博客主要介绍的用糗事百科的数据来看看咋使用select 和 find