爱折腾的胖子

IP属地：吉林

（一）刚入爬虫坑(3)——boss直聘数据爬取案例(re版本)
前面介绍了发送HTTP请求获取服务器返回的数据、数据通过re库进行数据提取。这节就写一个小案例，爬一下boss直聘中关于爬虫的招聘信息。打开b...

0.1 6967 0 3
（二）爬虫框架(5)——scrapy下载中间件
在写爬虫的时候，经常会遇到一个难题，就是反爬虫。反爬虫策略一般就是检测user-agent，IP等等信息，辨别是机器发送请求还是认为发送请求。如...

0.1 672 0 2

（一）刚入爬虫坑(2)——urllib.request库的使用(1)
在（一）刚入爬虫坑(1)——爬虫简介中提到过urllib2这个库，这个库是python2.7自带的模块，不需要下载。本篇使用python3，u...

1003 0 2
（三）分布式爬虫(2)——豆瓣小组爬虫案例
之前写的都是单机爬虫，在一个机器上可以运行，这节就研究一下分布式爬虫应该怎么写。scrapy-redis创建项目的过程，与之前scrapy一样，...

1274 0 1
（三）分布式爬虫(1)——scrapy-redis简介
scrapy-redis并不算是一套框架，是scrapy框架的部分功能通过redis进行实现，是一种组件。scrapy-redis.png首先分...

531 0 1
（二）爬虫框架(4)——scrapy模拟登录
在之前关于urllib的文章中，简单使用了模拟登录。过程是先使用POST登录获得登陆之后的信息，然后带着cookie信息访问其他页面，就可以跳过...

0.1 465 0 1
（二）爬虫框架(3)——CrawlSpiders是什么鬼
CrawlSpider是在spider.Spider基础之上封装的一个类，添加了一些功能。在Spider中需要把目标URL通过xpath或者正...

0.1 424 0 1

（二）爬虫框架(1)——scrapy简介
scrapy是为了爬取网站数据、提取结构性数据而编写的应用框架。用户只需要开发几个模块就可以实现一个定制化爬虫，抓取内容和图片。scrapy内部...

0.1 431 0 1
（一）刚入爬虫坑(3)——数据提取之re的使用
使用urllib库可以模拟浏览器发送请求获得服务器返回的数据，下一步就是把有用的数据提取出来。数据分为两种形式结构化和非结构化。非结构化数据一...

1191 0 1