如何打造类似数据虫巢官网系列教程之二：爬虫是怎么炼成的

题图 - 爬虫

文·blogchong

本文接上一篇《如何打造类似数据虫巢官网系列教程之一：介绍已经准备工作》，不清楚前面剧情的童鞋可以先看看。

这篇文章重点在于解决“数据虫巢官网”的底层数据问题，即那些分析数据的原始数据的来源。

结论很明显，当然是爬过来的，所以这篇我们将重点讲讲如何进行数据爬取，并且以虫巢官网的底层数据爬取代码为例子进行讲解。

当然，其中会一些常规的防爬机制破解以及应对的话题，整体来说这篇会偏重互联网公开数据集的爬取，即爬虫。

此外，整个数据虫巢官网的站点源代码，目前已经整理到github上咯，先放上github的链接：github.com/blogchong/mite8-com。

这是一个完整的项目，这部分代码包括以下部分：

1 整个数据虫巢数据处理后端框架。

2 前端每个页面JSP代码部分，以及涉及数据可视化渲染部分。

3 几个重点数据源的爬虫逻辑，以及定期更新爬虫数据的入口逻辑。

4 数据处理中涉及到的NLP部分，有几个侧重点，包括重构加工的分词工具，以及简单的情感分析，并且提供了分词的一个工具接口。

PS：如果感兴趣，clone之前别忘了给个star，哈哈。

爬虫框架 - Webcollector

回到主题，说到爬虫，由于我之前对于Python并不是很熟悉，而Java则是我的拿手好戏，并且目前市面上封装的爬虫工具很多，所以，我的考虑就是Java语言封装的Webcollector。

简单说一下这个框架，大伙儿感兴趣的可以去开源中国搜一下他的主页，对于Java不熟悉的朋友，其实也无所谓的，使用其他的Python框架一样是可以的，那这部分关于框架这块的就可以略过啦。

Webcollector支持各种自定义的遍历策略，这种在于路径规则不明确的时候使用是很有用的，比如我当时在爬取各大主流招聘网站的JD数据时，就通过这种模式做的，但如果是目的明确的，其实就是按照自己的业务逻辑去固定路径一次性获取数据了。

Webcollector对于Cookie、请求头之类的信息，提供了设置接口，可以很方便的伪装成浏览器，以及登录状态去爬取数据。

Webcollector集成了传统的JDBC持久化策略，可以很方便的将爬取的数据进行MySQL落地，以及MongDB落地等。

使用上也很方面，集成在Maven中，并且更新还是蛮及时的，所以需要集成到自己的Java代码中，只需要引入Jar包即可开整。

除此之外，Webcollector内部封装了selenium，对于动态加载的JS数据来说，也可以很轻松的拿到相关的数据。

其实上面基本都是它的一些特性，对于新手来说都太模糊，这个框架最好的地方在于作者提供了大量的博客实例，来解释各种特性，以及各种简单的爬虫实例可供参考，简直就是初学者的福音。

具体不再多说，想了解更多的，可以搜索然后进入进行学习。

爬取数据

不同的网站对于数据的展现以及输出方式可能都有点不同，静态的网页数据是最好获取的，比如我之前爬取一些偏传统的招聘网站的数据，直接通过入口就可以拿到数据，基本不设防。

代码例子：

CrawlDatum crawlDatum = new CrawlDatum(listUrl).putMetaData("method", "POST");

HttpRequest request = new HttpRequest(crawlDatum.getUrl());

request.setMethod(crawlDatum.getMetaData("method"));

HttpResponse httpResponse = request.getResponse();

Page page = new Page(crawlDatum, httpResponse);

我们拿到了HttpResponse对象，并且封装成Page对象，通过Page对象提供的Html解析方法，进行数据拆解。

其实Page底层的实现依然是Jsoup，一种很常规的Html结构解析包，我们来看一下具体的使用：

page.select("div[class=review-content clearfix]").text()

这是一个很常见的解析过程语法，在page对象中查找class名为“review-content clearfix ”的div，并且调用text方法，将内容转换为String。

静态页面，基本上会上门两招就够了，访问页面数据，然后解析数据，将非结构化的数据转换为结构化数据，当然具体怎么入库，在Java里方式就很多了。

除了静态页面之外，还有其他形式的数据获取。

比如现在很流行的一种做法，那就是前后端进行分离，即后端数据由额外的请求进行获取，再通过前端进行异步渲染。

其实这种做法也是有理由的，因为后端数据的请求跟前端其他部分渲染效率是不同，所以一般做成异步请求，这样在整个页面在后端效率不高时不会造成整个页面等待，提升用户效率。

这个时候，你单纯的看页面源码已经不行啦，你需要会使用浏览器的元素审查，把这些异步请求的链接给逮出来。

我在做雾霾影响分析报告时，基础原始数据是京东的口罩购买数据，并且是评论数据，其评论就是异步加载获取的。

京东评论异步请求

通过F12做元素审查，找到评论数据的真正调用接口，一般异步操作都是放到JS里，并且接口在命名上有一定的提示，如上图就是京东商品的评论数据接口。

大概链接长这样子：

https://sclub.jd.com/comment/productPageComments.action?productId=2582352&score=3&sortType=3&page=0&pageSize=10&isShadowSku=0&callback=fetchJSON_comment98vv47364

评论返回JSON格式

里头有控制翻页的参数，我们控制部分参数就可以愉快的获取到数据啦，我们再把callback参数去掉，就是实打实的JSON数据了，连清洗数据的活都省了。

除此之外，还有一个需要注意的点就是，控制访问频度，不管你是单机爬着玩也好，或者是工作大范围爬用代理池也好，频度是一个很基础的防爬机制。

具体的虫巢涉及的代码呢，我就不一一列出来了，这里列一下开源出来的代码，涉及到爬虫的部分，做个备注，有兴趣的可以去我github上clone下来，然后按下面的路径去分析分析逻辑，克隆完了记得给个star哟。

mite8-com开源项目涉及到爬虫的部分：

1 京东雾霾相关的爬虫逻辑：package com.mite8.Insight.jd_wumai;

2 电影《长城》相关的爬虫逻辑：package com.mite8.Insight.movie_great_wall;

3 政务舆情相关的爬虫逻辑：package com.mite8.jx.gz.dn.service; //service下对应的几个子目录，下面的utils，入口是OptXXX类。

防爬的一些机制，以及对应的破解之道

在这里再说一些玩爬虫时，会遇到的一些常见的防爬手段，以及对应的破解之道。

由于俺不是专业的爬虫，所以这部分这么完善的东西显然不是出自我之手，是我团队里爬虫大神在内部技术分享时总结的，俺只是个搬运工。

第一种，伪装成合法的浏览器

在一般情况下，我们会对请求头进行伪装，最重点的key就是user-agent，这部分信息就是浏览器的内核信息。

由于很多公司，甚至是大楼都是用同一个对外IP，所以单纯的使用频度进行防爬封锁，这种情况很容易造成误杀，这也是目标网站不愿意看到的情况。

但是这种情况下，一般不同的电脑其浏览器是不同的，包括内核版本等等，防爬时会分析这个user-agent是不是一样的，或者说非法的字符。

因为很多爬虫框架，或者进程方位URL时会有默认的标志，通过分析这个频度可以明显知道是不是机器在访问页面。

所以，我们通常会获取一批正常的user-agent做随机封装，去获取数据，这种措施会导致上面说的那种防爬机制时效。

第二种，IP频度封锁

在一个IP过于频繁的访问页面时，网站根据一定的判定策略，会判断这个IP是非法的机器，进行IP封锁，导致这个IP无法访问目标页面。

这个时候，我们可以控制访问频度避免被封，但很多时候我们爬取的量很大，控制频度很难完成任务，那么我们就需要使用代理池来做了。

通过代理池的IP，进行IP伪装，这样就破解了频度的控制。

通常代理池分免费与收费，一般免费的代理池都是被人用烂了的，里头的IP都是在各大主流网站的黑名单里。

最后，至于说每个网站的频度是什么样子的，以及控制力度(禁封几分钟，或者是一天等等)，就需要自己多测试尝试了。

第三种，用户验证机制

用户验证，这是个很常见的东西，很多页面只有用户登录之后可以访问。

一般通常的做法都是cookie验证，所以，关键是我们如何获取这个cookie。

一次性爬取比较容易，直接把cookie帖进去，做访问即可，但是遇到自动化的时候，我们就需要研究用户登录的过程了，使用POST做表单提交，获取cookie，后面的流程就通啦。

第四种，验证码

很多操作是需要验证码才能下一步操作的，这个时候除了破解验证码无法可破。

不错对于简单的验证码，或者说自己技术犀利的话，写个图像识别的东东，做图像识别，识别验证码也行，但是，目前验证码设计的都很变态，详情参考12306，所以这个方法打折的厉害。

还有一种手段，购买付费的打码平台服务，直接完破之，就是费钱而已。

第五种，动态页面

所谓动态页面，即很多时候数据是通过js动态加载出来的，或者JS加密的，这个时候，直接访问是拿不到数据。

也有破解之道，使用JS引擎做JS解析，目前不管是Python的还是Java的，有不少这种引擎可以供调用。

最后一种方法，使用浏览器内核去访问这个链接，就跟真正的浏览器访问页面没有什么差别啦，Java中经典的selenium就是其中一种。

据闻，技术高端点的公司还有更变态的，通过机器学习来学习真实用户的访问轨迹，通过算法来判断这种访问轨迹是否是机器造成的，然后再做判断是否做禁封。

好吧，玩高深的爬虫，其实就一部防爬与反爬的斗争史，其乐无穷。

最后，再贴一遍，数据虫巢官网的开源代码地址(可以随意fork、star 哈哈)：github.com/blogchong/mite8-com

相关扩展阅读：

《如何打造类似数据虫巢官网系列教程之一：介绍已经准备工作》

最后编辑于：2017.12.06 04:41:10

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,306评论 4赞 370
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,657评论 2赞 307
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 111,928评论 0赞 254
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,688评论 0赞 220
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,105评论 3赞 295
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,024评论 1赞 225
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,159评论 2赞 318
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,937评论 0赞 212
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,689评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,851评论 2赞 254
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,325评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,651评论 3赞 263
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,364评论 3赞 244
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,192评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,985评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,154评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,955评论 2赞 279

如何打造类似数据虫巢官网系列教程之二：爬虫是怎么炼成的

爬虫框架 - Webcollector

爬取数据

推荐阅读更多精彩内容