登录注册写文章

python爬虫入门（一）网络爬虫之规则

python爬虫入门（一）网络爬虫之规则

Python爬虫入门（一）

总述

本来早就想学习下python爬虫了，总是找各种借口，一直拖到现在才开始系统的学习。

我用的教程是中国大学MOOC上的由北京理工大学开设的Python网络爬虫与信息提取。

废话不多说，直接开始。

1. requests库入门

1.1 requests库简介

1. Requests 是唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。

2. 安装 `pip install requests`

3. 引入 `import requests`

4. 7种常用方法

`requests.request()` 构造一个请求，最基础的方法

`requests.get()` 获得HTML网页的主要方法，对应于HTTP的GET

`requests.head()` 获得HTML网页头的主要方法，对应于HTTP的HEAD

`requests.post()` 提交post请求，POST

`requests.put()` 提交put请求，PUT

`requests.patch()` 提交局部修改请求,PATCH

`requests.delete()` 删除请求，DELETE

5. requests库的get()方法

`r = requests.get(url)`

该语句的意为构造一个向服务器请求资源的Request对象，返回的是一个包含服务器资源的Response对象，用r来接收。

6. Response对象的属性

`r.ststus_code` http请求的返回状态，200为成功

`r.text` http响应内容的字符串形式，url对应的页面内容

`r.encoding` http header中猜测的编码格式

`r.apparent_encoding` http内容中猜测的响应内容的编码格式，备用

`r.content` http响应内容的二进制形式

1.2 通用代码框架

1. Requests库的异常

`requests.ConnectionError` 网络连接异常

`requests.HTTPError` http错误异常

`requesrs.URLRequired` URL缺失异常

`requests,ToomanyRedirects` 重定向异常，超过最大重定向次数

`requests.ConnectTimeOut` 连接远程服务器超时异常

`requests,Time` 请求URL超时，超时异常（包括上述的整个请求过程）

2. 通用代码框架

```python

import requests

def getHTMLText(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return '超时异常'

if __name__ == '__main__':

url = "https://www.baidu.com/"

print(getHTMLText(url))

```

1.3 HTTP协议及Requests库方法

1. HTTP协议

HTTP协议, Hypertext Transfer Protocol, 超文本传输协议。

是一个基于“请求与响应”模式的、无状态的应用层协议。

采用URL作为定位网络资源的标识。

2. URL

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

格式为：http://host[:port][path]

host: 合法的Internet主机域名或IP地址

port: 端口号，省略端口为80

path: 请求资源的路径

3. HTTP协议对资源的操作

GET：发送一个请求来取得服务器上的某一资源。

HEAD：HEAD和GET是一样的，区别在于HEAD不含有呈现数据，而仅仅是HTTP头信息。

POST：向服务器提交数据。这个方法用途广泛，几乎目前所有的提交操作都是靠这个完成。

PUT：这个方法比较少见。HTML表单也不支持这个。本质上来讲， PUT和POST极为相似，都是向服务器发送数据。

PATCH：向服务器更新数据。

DELETE：删除某一个资源。

4. HTTP协议方法与requests库方法一致。

最后编辑于：2020.07.21 09:42:26

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 161,601评论 4赞 369
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,367评论 1赞 305
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 111,249评论 0赞 254
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,539评论 0赞 217
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,967评论 3赞 295
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,929评论 1赞 224
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,098评论 2赞 317
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,825评论 0赞 207
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,609评论 1赞 249
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,796评论 2赞 253
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,282评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,603评论 3赞 261
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,277评论 3赞 242
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,159评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,959评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,079评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,874评论 2赞 277

赞1赞

赞赏

手机看全文