爬虫爬某医学院网站

闲来无事,写个爬虫玩玩。爬了某医学院,不是自己母校,至于为啥,没有目的。单纯爬爬而已。

源码

爬虫项目地址:https://github.com/ruanfumin/BbmcEduSpider

蚌埠医学院 新闻爬虫

声明:代码仅供学习使用

目标站点

爬虫框架

Scrapy

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。
Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。

爬虫简介

新闻每页30条数据,通过检测>找到下一页链接实现不停翻页,找不到下一页为止,每条新闻通过新闻详情页链接打开获取新闻的具体内容。
获取到的数据直接保存到数据库中。

网页没有反爬虫机制,所以抓取速度很快。

爬取效果

数据库截图

数据库数据截图.jpg

爬取数据量

爬取数据量

推荐阅读更多精彩内容