【小白学爬虫连载(1)】-爬虫框架简介

欢迎大家关注公众号【哈希大数据】
爬虫是什么?
请求、获取,整理、保存你想要的网站数据的一种自动化程序。
爬虫基本步骤
爬虫抓取网站数据和我们平常浏览网页的步骤是一样的主要可分为四个步骤:

  1. 发起请求
    Python通过HTTP库向目标站点发起Request请求,请求主要包含URL(也就是网站的网址)以及User-Agent、cookies等请求头信息,然后等待服务器响应。

  2. 下载响应内容
    如果服务器正常响应,会返回一个Response(响应),Response中包含状态码、响应头、响应体等,响应体内容类型可能有HTML,Json字符串,二进制数据(如图片、视频)等类型。

  3. 解析下载内容
    得到的如果是HTML,在python中可以用正则表达式(re库)、解析库(Beautifulsoup、pyquery、xpath)进行解析。如果是Json,可以直接转为Json对象解析,可能是二进制数据(图片、视频),可以直接按相应格式保存。

  4. 保存数据
    可根据获取到的数据格式,已经业务需求存为文本(txt或Json格式),也可保存到关系型数据库或非关系型数据库,或者保存特定格式的文件。

Request和Response是什么?分别包含哪些内容?

当客户端(对网站来说是浏览器)向服务器发送请求时,服务器会先创建两个对象:request对象和response对象。其中request对象中封装的是请求信息,response是用来向客户端响应信息。当客户端接收到响应信息后会进行相应解析显示。
Request主要包含以下内容:

1.请求方式
常用的请求方式主要有两种:
GET从服务器上获取数据
POST可简单理解为向服务器传送数据新建一条记录
还有其他四种:
HEAD:获取网页请求头信息
PUT:可简单理解为向服务器传送数据覆盖URL位置的资源
PATCH:可简单理解为向服务器传送数据更新部分内容
DELETE:删除URL位置存储的数据

2.请求URL
URL是Uniform Resoure Locator 的缩写,译为“统一资源定位符”,通俗来说,URL是是Internet上描述信息资源的字符串,采用URL可以用一种统一的格式来描述各种信息资源,包含文件、服务器的地址目录等。URL是计算机世界的详细地址,通过它可以定位到你想获取的数据。

3.请求头
Headers包含请求的头部信息,包括User-Agent、Cookies等。

4.请求体
POST、PUT、PATCH、DELETE等请求需要向数据库传到数据,这部分内容在请求体中。

Response主要包含以下内容:
1.响应状态
存在多种响应状态:常见的有200:请求成功;301:重定向;403:服务器拒绝执行请求;404请求失败,在服务器中找不到该资源。503:请求失败,服务器当前无法处理请求。

2.响应头
响应头包含:响应内容的类型和编码类型,服务器的信息等

3.响应体
包含求取资源的内容,如网页HTML,json,图片,视频等二进制数据等。

如何解析数据

在Python中根据获取的的内容可分为以下解析方式:

1.获取到的是json格式数据,用json包中的loads函数将已编码的 JSON 字符串解码为 Python 对象。

2.获取的是HTML,及二进制数据,可以用以下几种方式:

正则表达式(re库)直接提取信息,正则表达式的使用范围最为宽泛,但规则较多,使用难度大。
BeautifulSoup库:它是解析、遍历、维护“标签树”(HTML可认为是一个标签树)的功能库。HTML中的信息有很多,该库可以帮我们快速定位、获取我们想要的信息。具体使用方法后面再讲。

image

PyQuery库:该库是jQuery的Python实现,也是一个很棒的解析HTML文件的库,它的优点是语法简单,但我在实际应用过程中会出现部分标签解析不出的情况。这个大家要留意,当检查过语法无误但依然无法解析出标签内容时请换种解析方式(推荐使用BeautifulSoup)。

如何保存数据

Python提供各种数据的保存方式,所以数据的保存格式主要是看自己的需求。一般可保存为以下格式:

  1. 可以保存为简单的纯文本格式或json格式,在保存时记得制定编码格式(如utf-8或gbk)。

  2. 对于图片或视频可保存为对应格式的二进制文件。

  3. 可保存到MySQL、Oracle、SqlServer等关系型数据库。

  4. 可保存到MongoDB、Redis等关系型数据库

本次分享就到这里,下次将给大家分享如何用Python中的requests库爬取你想要的的数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,103评论 18 139
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,517评论 6 13
  • Spring Web MVC Spring Web MVC 是包含在 Spring 框架中的 Web 框架,建立于...
    Hsinwong阅读 21,785评论 1 92
  • 瑜伽,让我们的内心变得安静,同时也让我们的内心变得强大,我们学会了宽容和感恩 我们都有梦想,当我们有梦时,就努力去...
    海豚妹儿阅读 458评论 0 0
  • 书名:用所有的存在与世界相会 作者:萧秋水 篇目: 把自己培养成强者思维 我们拥有的生活,出自自己的选择 因为你什...
    颜者阅读 175评论 0 0