小白学爬虫连载(2)--Requests库介绍

欢迎关注公众号【哈希大数据】

前言
首先简单介绍Python网络爬虫用到哪些软件以及其如何配置
如果只做爬虫采用如下方式就OK啦:
1.建议大家使用Python3最新版本,可直接到官网下载安装。
2.编译工具建议大家用pycharm。Python和pycharm的详细安装步骤可参考:http://blog.csdn.net/qq_29883591/article/details/52664478(谢谢陌上行走的分享)
但如果后面还要做数据分析等更进一步的工作,建议大家直接配置anaconda和pycharm,anaconda已经集成了Python和非常多科学计算需要的包,所以不用再安装Python。安装步骤可参考:
http://blog.csdn.net/qq_36790747/article/details/63257244(感谢Theigrams的分享)在完成以上配置后,下面正式进入Requests库的学习

Requests库的安装与测试

Windows平台:首先介绍一种简单的安装包的方法,打开cmd,执行pip install requests 命令,如下图:

image
image

此外如果第一种方法出现如timeout等问题,我们还可以采用手动方法安装,步骤如下:
1、 登陆该网站(https://www.lfd.uci.edu/~gohlke/pythonlibs/)下载你所需要的第三包的whl文件(用Ctrl+F命令搜索你想安装的第三方包),建议存储在Python安装目录中的\Lib\site-packages目录下。
2、 下载完成后打开命令行,输入pip install 文件绝对路径 ,然后点击回车就OK啦

image

安装完成后,新建一个存放爬虫程序的文件夹,我们打开pycharm,如下图所示打开刚才所建文件夹,然后如下图所示,在文件夹中新建一个Python文件。


image

image

下面首先测试requests库是否安装成功。
在文件中输入:

import requests
r=requests.get("http://www.baidu.com")
print(r.status_code)print(r.text)

对于入门的小白来说,希望大家能够养成自己手动码代码的习惯不要直接复制粘贴。
点击下图中的绿色按钮进行执行,得到结果如下图所示,表明已经可以正常获取百度的首页内容。

image

Requests库的主要方法介绍

对应于request的6种请求,Requests库对应给出了6种方法。

image

以上请求的返回结果就是Response(响应),如r 以上请求的返回结果就是Response(响应),如r=requests.get("http://www.baidu.com"),r便是响应,它包含响应状态:r.status_code,响应头:r.headers和响应体:r.text或r.content或r.json(),分别代表响应内容的字符串格式,二进制格式和json格式。此外它还包含r.encoding:从HTTP header中获得的响应内容编码方式同时程序也是利用该格式对获取到的内容进行解码的,r.apparent_encoding:从内容中分析出的响应内容编码方式。

异常情况处理

在第一部分最后的测试中,我们可以看到返回的状态码是200,表明响应成功,但返回的内容存在乱码:

image

说明解析的解码方式不对。对此我们可以采用r.encoding = r.apparent_encoding 来解决。

image

此外在爬取过程中会存在很多种异常情况,为了使我们的代码更健壮,做好异常处理很重要。

Requests库主要有以下异常:

image

该表引自嵩天老师Python网络爬虫与信息提取

我们还要注意,只有当状态码为200时,我们才可能获取到想要的内容,为什么是可能呢这里留个悬念咱们之后再讲。所以我们开始需要对状态码做if判断,但Python提供了raise_for_status()方法,使用该方法会自动判断状态码是否等于200,不需要if判断。

Python中做异常处理很方便,可使用try-except语句,以下为简单的try...except...else的语法:
try:<语句>#运行别的代码except<name1>:<语句>#如果在try部份引发了'name1'异常,执行该部分语句except<name2>,<数据>:<语句>#如果引发了'name2'异常,获得附加的数据,执行该部分语句else:<语句>#如果没有异常发生执行该部分语句

如果不知道具体会出现什么异常时,可以不写异常的名字,Python会自动帮你捕捉发生的异常,但这样会比较慢,所以如果知道会出现的异常,请写到程序中。

健壮的代码实例

一个较为健壮的利用Requests库获取网页内容的代码为:

import requests
url = "http://www.baidu.com"
try: 
r = requests.get(url) r.raise_for_status()
 r.encoding=r.apparent_encoding # 如果出现HTML出现乱码再加入该语句
 print(r.text)
except Exception as e: 
print("爬取失败,错误为:" + e)

小结

  • 简单介绍了Python、anaconda、pycharm的安装与配置

  • 介绍两种Python安装第三方包的方法,pip install <包名> 以及手动安装

  • 简单介绍Requests库中6种请求方法

  • 如何处理爬取过程的异常情况

  • 给出了一个简单的抓取网页的样例程序

本次分享到此结束,下次分享将对正则表达式进行较为详细的介绍。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容