Python爬虫模拟登录遇到的问题——CSRF防御

背景

去年在公司写过一个爬虫工具,用于抓取自动化报告通过率、自动发送报告。由于当时是第一次接触爬虫,难免会遇到各种问题,解决方案全都是按照网上的一些爬虫文章示例,照猫画虎写的。虽然能正常使用,但其实很多地方都没弄明白。最近学习了一些前端和后台的原理,了解了cookie与session的机制,总算弄明白了爬虫登录过程中的一个疑问。

用户登录请求中的authenticity_token

编写爬虫第一步,在登录公司的自动化平台时就遇到了一个难题,登录请求中必须包含一个authenticity_token字段。令人头大的是,完全不知道这个字段从何而来,而且该字段还每次都不一样,参考的爬虫登录示例也没教啊!真是急坏苯宝宝了😭


登录表单

后来翻了好多CSDN的爬虫贴,了解到知乎的登录请求中也包含这样一个字段,而作者的处理方式就是先访问一次登录页,然后从登录页中查找一个隐藏的authenticity_token字段。
借助F12发现,公司的自动化平台登录页中也包含了这样一个隐藏字段,试之,果然成功了......

登录页面中隐藏的token
#登录源码:
def login(login_url = 'http://****.com/users/sign_in', username, password):
    #请求头
    my_headers = {
        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
        'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding' : 'gzip',
        'Accept-Language' : 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4'
    }

    #获取token
    sss = requests.Session()
    r = sss.get(login_url, headers = my_headers)
    reg = r'<input name="authenticity_token" type="hidden" value="(.*)" />'
    pattern = re.compile(reg)
    result = pattern.findall(r.content)
    token = result[0]
    
    #postdata
    my_data = {
    'commit' : '登录',
    'utf8' : '%E2%9C%93',
    'authenticity_token' : token,
    'user[email]': username,
    'user[password]':password
    }
    
    #登录后
    r = sss.post(login_url, headers = my_headers, data = my_data)
    return sss

"多年后的一个平静的下午,当我无意间浏览了一片CSRF攻击的帖子,突然眼前一亮......老衲终于明白了这个authenticity_token的含义了!!!终于彻底理解了当年困扰我两小时的难题了!!!"
其实,该token的作用就是防御CSRF攻击,关于什么是CSRF,还得先了解下Session id。

关于Session id的机制

HTTP请求的一大特点就是无状态,这也就导致服务端无法区分请求来自哪个客户端。为了记录每个用户的状态,跟踪用户的整个会话,web程序普遍采用了cookie与session技术。(由于cookie与session的内容过多,在此不表,详细原理可以参考一片文章:Cookie与Session机制)
关于cookie与session,最需要了解的几点是:

  1. session机制运行依赖于session id,用于服务端跟踪每个会话,而session id存在于本地的cookie当中;
  2. session id会随浏览器进程关闭的关闭而清除,也就表示一次完整的会话结束了。当下次再次访问该网站还需要登录,重新建立一个会话;
  3. 现在绝大多数浏览器都支持子窗体,子窗体能共享父窗体的session id,而另起的浏览器进程无法访问该session。这也是为什么当我们在某网站登录后,在新的页签下打开该网站依然是登录状态,而另起一个浏览器进程访问却是非登录状态。

根据session机制以上特点,就引申出了一个问题:CSRF攻击。

什么是跨站请求伪造(CSRF)攻击?

用户每次点击一个链接、提交一个表单,其本质就是对服务端发起一次请求。而CSRF攻击的原理就是:攻击者诱导用户点击一个链接,用户在不知情的情况下提交了一次表单请求。而表单的内容则是攻击者事先准备好的。
简单举个栗子🌰:

  1. 用户小明登录了论坛A,同时也打开了一个危险网站B(同一个浏览器中);
  2. 网站B上有一个链接,该链接的实质内容是针对论坛A的一个发帖请求(比如广告贴)。
  3. 小明处于好奇点击了该链接,造成的结果就是:小明在完全不知情的情况下在论坛A成功发表了一篇帖子。

备注: 以上攻击成功实施的关键在于,小明已经登录论坛A,并且点击跳转后的浏览器子窗体是可以访问父窗体的session id的。
假如小明复制该链接,然后手动打开一个新的浏览器粘贴访问该链接,则会提示用户处于非登录状态,该发帖请求会被拒绝。原因是新打开的浏览器无法获取前一个浏览器中的session id,服务端会将该请求当成一个新的会话,需要重新登录后才能成功执行发帖请求。

CRSF攻击防御

既然大家都了解CRSF攻击,自然有相应的防御措施,其中比较常用的就是采用token验证。
工作机制就是:用户在发送表单时还需要携带一个token值。该token一般是填写表单页中的一个隐藏字段,每次访问都不同。通过该token的验证,服务端就能知道用户的表单请求是否从表单填写页面跳转而来了。
简单举例:

  1. 当小明主动发帖时,必定要先点击发帖编辑页面A,当填写完帖子内容后再点击【发帖】按钮。此时会将小明填写的表单内容连带页面A中隐藏的一个token发送给服务端。服务端验证token通过后才表示发帖成功。
  2. 当危险网站诱导小明点击危险链接时,由于该链接实质就是一个发帖的post请求,跳过了访问发帖编辑页面A的过程,自然也就无法获取有效token,最终服务端会认为该发帖请求不合法。

简单来说,服务端每次通过请求数据中的token来验证表单请求是否由用户主动发送的,从而有效防御了CRSF攻击。

至此,也就明白了为什么登录页面时需要携带一个authenticity_token参数了,同时也理解了为什么需要访问登录页面获取该token。😄

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,306评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,657评论 2 307
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,928评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,688评论 0 220
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,105评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,024评论 1 225
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,159评论 2 318
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,937评论 0 212
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,689评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,851评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,325评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,651评论 3 263
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,364评论 3 244
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,192评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,985评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,154评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,955评论 2 279