网络爬虫(1):python3使用Cookie-解决每天理财网站登陆签到获取积分的问题

字数 989阅读 1446

前言:

最近菠萝妹的理财的小姐妹团里面理财话题好火呀,针对一个理财app,每天都靠小姐妹自觉在群里喊签到来获取签到赠送的积分。如果一天没有坚持,后续的当日积分就只有1分,连续每天签到的话就会有8分,而这个积分可以累积账号等级升级,账号级别高的可以减少服务费。因为自己比较懒,看消息有时候不及时,恰好在学Python,就尝试写了个签到的脚本。

分析:

首先签到需要登录才可以实现。

我们理财产品的URL: https://sso.my089.com/sso/login

由于我们模拟的是用户名登录,光从UI界面上我们可以看到,有用户名,密码,记住30分钟的按钮, 登录按钮。


站点登录模块

按F12可以看到,其实还有些隐藏的参数,比如 encryption


登录页面F12

思考1:

  1. Q1:我们要模拟登录操作,首先要看这个post操作带了哪些参数传递给服务器?
    A1:我们打开抓包工具 Fiddler,然后打开chrome,打开上面的URL。输入用户名和密码,点击登录按钮。
    这个时候我们可以看到Fiddler里面抓到了很多的记录。
  2. Q2: 但表示我们都需要模拟吗?
    A2: 显然不是,我们应该都知道,先找登录提交参数的地方。
    可以通过URL 这一览,看到有个/sso/login 的HTTPS协议的post请求,点开,看右边的sheet。
    request URL:/sso/login
    HTTP/1.1
    POST
    ...
    这些信息是我们编程的时候都需要用到的。
Fiddler抓包页面
client
cookie
登录form

从上面的表单我们还可以看到,password 这个value是空的,但encryption 这个是经过MD5加密的,我们自己的密码传入这个加密的字符串.

码代码

用的python版本是Python3.5
创建了一个signin.py的文件
导入头文件:

  from urllib import request
  from urllib import error
  from urllib import parse

登录:

if __name__ =='__main__':
# 登录
login_url='https://sso.my089.com/sso/login'
# User-Agent 信息
user_agent=r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'
# Headers信息
head={'User-Agnet': user_agent, 'Connection': 'keep-alive'}
# 登录form的信息
Login_Data={}
Login_Data['username']='xxxxxxx'
Login_Data['phone']=''
Login_Data['encryption']='xxxxxxxxxxxxxx' #密码,MD5加密后的密码,用抓包工具查看,或者通过MD5在线加密工具把明文密码加密
Login_Data['password']=''
Login_Data['session_kept']='30'
Login_Data['loginCategory']='0'
Login_Data['back_url']='http%253A%252F%252Fbbs.my089.com%252F'
Login_Data['app_key']='xxxxxxxxx' #不同的用户不一样key
Login_Data['ltcc']='xxxxxxxxx' #不同的用户不一样

这块代码就是我们上面Fiddler 里面抓到的信息, 有登录的请求,有user-Agent, 有header信息,有登录的form

思考2:

  1. Q1:为啥要加heard信息?
    A1:因为我们是模拟浏览器,进行登录

  2. Q2:但为啥登录还是不能成功呢?
    A2: 我们还需要加Cookie

我们创建一个带Cookie的opener,在我们访问登录的url的时候,会将登录后的cookie保存到本地,然后我们就可以利用这个cookie来访问。

我们新手宝宝先官网查下cookie怎么使用

官方网址

官网

上面挑选一个查看具体的代码示例,看看怎么使用:


示例代码

我们可以看到需要自己创建一个opener. 在http包中,提供了cookiejar。

接下来就是依葫芦画瓢,我们把先导入

    from http import cookiejar

然后把cookie保存到一个变量里面:

 #声明一个CookieJar对象实例来保存cookie
cookie=cookiejar.CookieJar()
# 利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器,也就CookieHandler
handler=request.HTTPCookieProcessor(cookie)
# 通过CookieHandler创建oepener
opener = request.build_opener(handler)

接下来就是把登录这个请求post出去
python的代码里很简洁 。

  # 创建 登录的 request对象
  request_login =request.Request(url=login_url,data=loginpostdata,headers=head)
  ...
  response_login =opener.open(request_login)
  ...

同理,我们要实现签到功能。
我们通过Fiddler 工具看到签到也就是一样的一个post请求。比登录更简单。省略不写了。

调试

这里提下,怎么验证自己的post是正确的呢,我们加点调试代码,看返回的情况:

  try:
      response_login =opener.open(request_login)
     response_sign=opener.open(request_sign)
      print(response_login.read().decode('utf-8'))
      print(response_sign.read().decode('utf-8'))
except error.URLError as e:
      if hasattr(e,'code'):
         print('HTTPError:%d' % e.code)
    elif hasattr(e,'reason'):
        print('URLError:%d' % e.reason)

调试情况:


调试代码

到这里代码部分就全部完成啦~后面,可以做成个定时任务,定时调度。

题外话:过程中遇到Fidder 工具抓https 请求都是Tunnel to......443
解决方法:


tools->https
actions->reset All Cerfificates

后面发现,更好的方案是使用requests。
下面用requests写个登录模块:

 Login_Data = requests.post('https://sso.my089.com/sso/login', params={
    'username': 'xxxxxx',
    'phone': '',
    'encryption': 'xxxxxxxxxxxx',
    'password': '',
    'session_kept': '30',
    'loginCategory': '0',
    'back_url': 'http%253A%252F%252Fbbs.my089.com%252F',
    'app_key': 'xxxxxxxxxxxx',
    'ltcc': 'xxxxxxxxxxxx'})

Login_Data.encoding='utf-8'

推荐阅读更多精彩内容