python爬虫遇到JS加密,pyv8运行js,详细解密过程

首先说一下什么是加密,所谓js加密大多出现在表单提交过程中,下面我将以中国电信为例,详细讲解如何利用pyv8来加密登录的密码。要说明的是pyv8目前仅仅支持python2,用的下伙伴要注意自己的python版本,(当然关于python3的下伙伴,我下一章会讲到,利用pyExecjs来执行JS效果同pyv8一样)

首先我们找到电信的用户登录了解http://login.189.cn/web/login,打开开发者工具,点击network,输入手机号和秘密加上验证码,点击登录,在all这一栏找到login

image.png

可以看到password字段是加密以后的密码,那么是怎么加密的呢?一般加密都是通过js加密那么我们继续往下找发现有一个js文件(jquery.fn-aes.min.js)
image.png

点击以后发现右边的不就是加密方式吗?哈哈哈,找到加密方式,我们离胜利就更近了一步,分析加密过程我们可以看到,加密的key是'login.189.cn',其中的iv是偏移量,找到加密方式如何运行呢?不着急,我们看到CryptoJS这个库了吗?
image.png

分析发现这就是JS加密算法,我的思路是加载CryptoJS然后,用他来加密登录密码,好我们来找到CryptoJS这个的加密JS。

image.png

继续往下看我们能看到aes.min.js(点击进去后发现就是我们上面所需要的JS加密算法),到这里我们基本上就成功了一半,接下来我们只需要加载这个加密算法,运行加密函数,我们输入的明文密码就会加密成密文。我们先下载aes.min.js这个js文件,保存到本地取名为:crawl_.js.
接下来就是我们运用pyv8来执行JS加密的过程,代码如下:

import PyV8
ctxt = PyV8.JSContext()
ctxt.enter()
c = raw_input('请输入验证码:')
add = '''
aesEncrypt = function() {
    var t = CryptoJS.MD5("login.189.cn"),
        i = CryptoJS.enc.Utf8.parse(t),
        r = CryptoJS.enc.Utf8.parse("1234567812345678"),
        u = CryptoJS.AES.encrypt('''+"'{}'".format(c)+''',i, {
            iv: r
        });
    return u + ""
};
'''
with open('crawl_.js')as f:
    a = f.read()
func = ctxt.eval(a + add)
print func()

运行代码我们输入:123456
加密后的结果为:aeMui9uecQAA8XCQwfpUEA==
如下图:


image.png

image.png

通过对比发现,我们python中运行pyv8加密后的密码和电信网站加密的密码,结果一样,到此整个加密过程结束。。下一章我会讲如何在python3下运用PyExecjs 来解密电信加密。想知道的下伙伴私信我哦。
声明:此文章仅仅作为学习使用,请勿违反法律,尽量放慢你的速度、尽量遵循robots规则。

推荐阅读更多精彩内容