最近由于需要一直在研究微博的爬虫,第一步便是模拟登陆,从开始摸索到走通模拟登陆这条路其实还是挺艰难的,需要一定的经验,为了让朋友们以后少走点弯路...
持续集成(CI)对于软件工程来说非常重要,它的意义在于产品快速迭代的同时,还能够让代码保持高质量,所以编写高质量的单元测试代码也显得十分重要。T...
jupyter notebook是交互式的Python运行环境,可以把它看做是一张草稿纸,你可以通过它来进行你的思考探索过程,交互式的进行,每一...
最近在写一个分布式微博爬虫,主要就是使用celery做的分布式任务调度。celery确实比较好用,但是也遇到一些问题,我遇到的问题主要集中在定时...
前言 本系列文章计划分三个章节进行讲述,分别是理论篇、基础篇和实战篇。理论篇主要为构建分布式爬虫而储备的理论知识,基础篇会基于理论篇的知识写一个...
本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇,拟从实战角度来介绍如何构建一个稳健的分布式微博爬虫。这里我没敢谈高效,抓过微博数据的同...
很长一段时间没有更新简书的内容了,打算把微博爬虫完善得差不多之后,再系统的把做微博爬虫的每个模块和阶段都记录下来。其中微博页面抓取和解析、用户页...
昨日使用haipproxy作为代理源,对知乎进行了数据抓取相关的性能测试,测试效果还不错,有兴趣的可以点击项目主页查看测试结果。但是它仍有继续优...
目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑...
文集作者