采集川大公管学院教师信息0529

一、采集前准备#

在采集之前,首先进入四川大学公共管理学院的师资队伍页面查看页面显示结构,并用开发者工具“ctrl+shift+i”工具查看其代码排列规则,确定采集字段内容。
基本思想是先在初始页面采集姓名、职称、专业、邮箱,然后通过采集的详情页面链接进入详情页,并采集其基本简历,代表性研究成果,获奖情况、科研项目、人才培养。共10个字段。
过程的操作指导来源于scrapy的官方文档以及老师同学的帮助。

二、新建scrapy项目#

首先新建一个scrapy项目,代码如下:

cd venv
scrapy startproject teachersinfo

三、编写items.py文件#

然后编写项目的items文件,在这个文件中定义将要采集的字段。按照规定格式编写之后,这里的字段将直接用于后面步骤中的采集过程,且便于数据的传递。
代码如下:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class TeachersinfoItem(scrapy.Item):
    # 教师名字
    name = scrapy.Field()
    # 教师职称
    title = scrapy.Field()
    # 教师院系
    major = scrapy.Field()
    # 教师邮箱
    mail = scrapy.Field()
    # 教师简介
    resume = scrapy.Field()
    # 教师简介
    achieve = scrapy.Field()
    # 教师代表性研究成果
    prize = scrapy.Field()
    # 教师获奖情况
    project = scrapy.Field()
    # 教师科研项目
    training = scrapy.Field()
    # 教师人才培养
    pass

四、编写爬虫#

在项目之下,可以看到基本结构:

teachersinfo的子集结构

在spiders之下新建一个爬虫,命名为:teachers_spider.py

import scrapy
import hashlib

from scrapy.selector import Selector
from teachersinfo.items import TeachersinfoItem


class TeachersinfoSpider(scrapy.Spider):
  name = "teachersinfo"
  start_urls = [
    'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=1',
  ]

  def parse(self, response):
    for info in response.xpath("//ul[@class='teachers_ul mt20 cf']/li"):
      item = TeachersinfoItem()
      item['name'] = info.xpath("div[@class='r fr']/h3/text()").extract_first()
      item['title'] = info.xpath("div[@class='r fr']/p/text()").extract_first()
      item['major'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[1]/text()").extract_first().split("E-mail:")[-1]
      item['mail'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[2]/text()").extract_first()
      href = info.xpath("div[@class='l fl']/a/@href").extract_first()
      yield scrapy.Request(response.urljoin(href), meta={'item': item}, callback=self.parse_more_info)

    next_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()-1]/a/@href").extract_first()
    last_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()]/a/@href").extract_first()
    if last_page:
        next_page = "http://ggglxy.scu.edu.cn/"+next_page
        yield scrapy.http.Request(next_page, callback=self.parse)

  @staticmethod
  def parse_more_info(response):
    item = response.meta['item']
    item['resume'] = response.xpath("//div[@class='desc']/text()").extract()
    item['achieve'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[2]//text()').extract())
    item['prize'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[3]//text()').extract())
    item['project'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[4]//text()').extract())
    item['training'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[5]//text()').extract())
    yield item

通过其中meta方法的传递参数,将基础页面的内容与详情页面的内容联系起来,不用重复采集两次教师的姓名以及职称。

五、执行爬虫,并保存文件#

直接用一句代码实现这两步过程,将结果保存为csv格式。

scrapy crawl teachersinfo -o infos.csv

其结果显示如下:

爬虫teachersinfo执行的结果

将infos.csv文件下载并打开,发现excel内容为乱码,于是采用记事本打开并另存,将编码方式换成ANSI,然后再用excel打开即可呈现结果。显示如下:

csv文件内容
csv文件内容

六、补充#

关于翻页###

在进行分页时,尝试使用其他方式,其中xpath的sibling是一个很好的方式。
将翻页代码更改一下:

next_page = response.xpath('/html/body/div[4]/div[2]/div[1]/div[2]/li[@class]/following-sibling::*[1]//@href').extract_first()
    if next_page is not None:
      next_page = response.urljoin(next_page)
      yield scrapy.http.Request(next_page, callback=self.parse)

保存成csv文件,用相同转编码的方式查看,可知可以得到相同的结果。

haha.csv

推荐阅读更多精彩内容