Scrapy爬虫-item的使用

文:郑元春

人生苦短,我用Python。

回顾:上一篇Scrapy爬虫之中,主要说明了原理和Scrapy的组件,并建立了一个最基本的爬虫工程。很多时候,我们并不是像搜索引擎一样需要对很多网页进行爬取,我们一般都是有特殊的爬取目的,通过关注自己感兴趣的数据点,进行数据的爬取,既然是自己“定制”的爬虫,那么对于网页上的非结构化的数据,我们需要存储到本地(或是文本文件,或是数据库表)。如果你后续的工作是对数据进行分析,并且数据有很好的结构信息(指的是不全是文本数据,或是长文本数据),那么就可以直接将数据存储到数据库。

页面数据的建模

网站是从数据库(数据模型)到html的正向显示,爬虫是从html到数据模型的逆向推导。

1.分析网页URL

我们写爬虫的第一步就是详细分析你的网页,尤其是动态网页,首先你需要分析的就是URL地址,现在好多的网站,尤其是基于产品购物的网站(比如淘宝,京东等)他的URL可能会带有好多的URL参数或者是是在动态变化的,因为URL首先会牵扯到重复爬取的问题,虽然Scrapy也有自己的URL去重算法,但还是自己掌握URL的规律吧,这样至少自己能够把握重复性问题了。

URL命名规则实例--图片来源:[webdesign.tutsplus.com](webdesign.tutsplus.com)
URL命名规则实例--图片来源:[webdesign.tutsplus.com](webdesign.tutsplus.com)

做过网网站的同学一定知道服务器软件都会有一个URL解析组件,而且根据你的页面展示内容,一般URL都会有自己的命名模式,相同类型的网页都会有同样的命名方式。你需要做的就是将你关注的网页的URL的命名方式自己提炼出来,这样当你写爬虫的时候就能够自己构造URL

2.分析数据获取方式

现在的一个页面大小动辄好几M,除了图片之外,还有大部分的数据是通过异步方式加载的,这些数据是通过浏览器执行javascript从服务器的API动态加载的,所以不管你是通过urllib还是通过scrapy访问的页面抓的数据都是最原始的静态数据,那些动态的数据并不会抓取。

有的爬虫是调用了其他的脚本执行库来实现渲染页面,但是那是需要时间的,对于需要爬大量页面的需求来说有点不切实际(同时,那部分的代码我还没有研究)。其实对于需要的动态数据我们可以直接构造Request来获取就行了,完全不必要渲染。但是这还牵扯到一个问题,那就是你必须自己分析数据的获取形式。这个就比较费时费力了,一个是你需要分析出页面中哪些是通过ajax加载的,哪些是原始html就load下的,这里比较推荐的就是Firefox浏览器了,除了能够“定位”元素位置,通过添加Firefox的其他组件(FireBug+xPath)就更加的得心应手了。

简书首页加载的Html

上图是打开简书首页的时候需要加载的部分文件,我这里只打开了[HTML]和[XHR]两个开关,所以JS文件和CSS文件并没有显示出来(显示出来也没有太大的用处).可以看到首页只是加载了一个原始的html'文件。图中两个显示记录,第一个的返回status是301,那是因为我在地址栏中输入了“jianshu.com”,浏览器给重定向到了带有www的页面上。
所以在主页上面显示的所有的数据都是可以抓取的(除了图片外,因为html语言中图片是通过src的方式)。如果你向下滑到底部,点击加载更多的话看到页面并没有刷新就有了数据显示出来,这是通过ajax加载的数据。

加载按钮上的事件触发

可以看到加载更多这个按钮上有事件触发。数据是在这里面触发加载的。

Snip20160705_69.png

这里只是举个小例子说明页面上的数据是怎么来的,当然还有其他的加载方式。总之,好好利用FireFox的调试工具

3. 对想要的数据建模

4. Scrapy的数据模型--Item

下篇预告:
数据模型写好了,并且也能开始抓取数据了。那么接下来要做的就是将数据写入到数据库中或是文件中,是通过Pipeline实现的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 161,873评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,483评论 1 306
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,525评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,595评论 0 218
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,018评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,958评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,118评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,873评论 0 208
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,643评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,813评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,293评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,615评论 3 262
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,306评论 3 242
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,170评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,968评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,107评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,894评论 2 278

推荐阅读更多精彩内容