Spider爬虫简介

为什么要做爬虫?

都说现在是"大数据时代",那数据从何而来?

企业产生的用户数据:

数据平台购买数据:

政府/机构公开的数据:

数据管理咨询公司:

  • 爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。拉勾网Python爬虫职位


  • 通俗的讲: 就是模拟 客户端发起网络请求接收请求的响应,按照一定的规则,自动的抓取互联网信息的程序。
  • 原则上只要浏览器能够做的事情,爬虫都能够实现

百度百科:网络爬虫介绍 https://baike.baidu.com/item/网络爬虫


爬虫的基本原理:
  • 我们可以将互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的联系我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以被我们获取下来了。

爬虫的用途

  • 搜索引擎
  • 咨询新闻网站
  • 购物助手(慧慧购物)
  • 数据分析与研究积累原始数据资源
  • 抢票软件等
关于Python爬虫,我们需要学习掌握的知识有:
  1. Python基础语法学习(基础知识)
  2. HTML 前端知识
  3. 数据提取的持久化(文本、数据库)
  4. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....(header请求头,)
  5. Scrapy框架以及scrapy-redis分布式策略(第三方框架)

PHP

  • 2014年左右最火的语言,不过多线程支持不好,不适合做爬虫

JAVA

  • 生态完善,支持第三方库多,但是代码量大,不利于维护重构。是Python最大的竞争对手

C/C++

  • 底层语言,仅次于编绘语言。运行效率很高,学习成本高,代码量超大(底层模块自己写)。

Python

  • 代码简介,语法优美,支持大量第三方模块,支持多任务,有成熟的spider框架。



爬虫的分类

  • 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.
  • 通用爬虫

  • 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 ,提取重要数据(做过滤,分词,去广告)。

通用搜索引擎(Search Engine)工作原理

  • 通用网络爬虫
  • 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
  • DNS:将域名转化为ip的技术


流程

第一步:抓取网页 搜索引擎网络爬虫的基本工作流程如下:
  • 1.首先选取一部分的种子URL,将这些URL放入待抓取URL队列;
  • 2.取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。
  • 3.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环....

搜索引擎的爬取url通过什么方式获得?

  • 通过网页外链
  • 通过链接提交
  • 各大搜索引擎公司与DNS服务商合作

Robots协议:(也叫爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎 哪些页面可以抓取,哪些页面不能抓取

缺点:
1,返回结果千篇一律,没有很好的针对性,不能对特殊的的用户群体返回对应的数据
2,需要遵循robot协议
3,搜索引擎通常获得文本,图像音频有困难


聚焦爬虫

根据需求产生,
只抓取与需求相关的数据。
我们更多会实现聚焦爬虫。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • 你爬了吗? 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网...
    Albert新荣阅读 2,187评论 0 8
  • 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序...
    评评分分阅读 7,835评论 2 121
  • 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而...
    AttackCoder阅读 462评论 0 0
  • 我们会去刻意练习,不断提升优化自己,不管是从学习上还是生活上。 我们努力优秀,不断前行,吸引异性,但是优秀只是吸引...
    玉米呀阅读 219评论 0 0
  • 照片难得好看点,就忍不住想画一张 疯狂自恋
    XeniaX阅读 167评论 0 3