破解有道翻译反爬虫机制

web端的有道翻译，在之前是直接可以爬的。也就是说只要获取到了他的接口，你就可以肆无忌惮的使用他的接口进行翻译而不需要支付任何费用。那么自从有道翻译推出他的API服务的时候，就对这个接口做一个反爬虫机制（如果大家都能免费使用到他的翻译接口，那他的API服务怎么赚钱）。这个反爬虫机制在爬虫领域算是一个非常经典的技术手段。那么他的反爬虫机制原理是什么？如何破解？接下来带大家一探究竟。

一、正常的爬虫流程：

如果你要爬取他的翻译接口，这个流程还是不能少的。首先我们打开有道翻译的链接：http://fanyi.youdao.com/。然后在页面中右键->检查->Network项。这时候就来到了网络监听窗口，以后你在这个页面中发送的所有网络请求，都会在Network这个地方显示出来。接着我们在翻译的窗口输入我们需要翻译的文字，比如输入hello。然后点击自动翻译按钮，那么接下来在下面就可以看到浏览器给有道发送的请求，这里截个图看看：

01.png

在上图，我们可以看到发送了很多的网络请求，这里我们点击第一个网络请求进行查看：

02.png

可以看到，我们在点击自动翻译的时候，发送的请求就是上图中Request URL的那个URL，然后我们再点击那个Response，我们可以看到返回的结果：

03.png

并且，现在我们再回到Headers的地方，然后滚动到最下面，可以看到有一个Form Data的地方，这个下面展示了许多的数据，这些数据就是你在点击翻译的时候浏览器给服务器发送的数据：

04.png

对其中几个比较重要的数据进行解释：

i：需要进行翻译的字符串，这个地方我们输入的是hello。
salt：加密用到的盐。这个是我们破解有道反爬虫机制的关键点，后面会讲到。
sign：签名字符串。也是破解反爬虫机制的关键点。

其他的数据类型暂时就不怎么重要了，都是固定写法，我们后面写代码的时候直接鞋子就可以了。到现在为止，我们就可以写一个简单的爬虫，去调用有道翻译的接口了。这里我们使用的网络请求库是Python3自带的urllib，相关代码如下：

# 导入需要的库
import urllib.request
import urllib.parse
import json

# 等待用户输入需要翻译的单词
content = input('请输入需要翻译的单词：')

# 有道翻译的url链接
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule&sessionFrom=null'

# 发送给有道服务器的数据
data = {}

# 需要翻译的文字
data['i'] = content
# 下面这些都先按照我们之前抓包获取到的数据
data['from'] = 'AUTO'
data['to'] = 'AUTO'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = '1500349255670'
data['sign'] = '997742c66698b25b43a3a5030e1c2ff2'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CL1CKBUTTON'
data['typoResult'] = 'true'

# 对数据进行编码处理
data = urllib.parse.urlencode(data).encode('utf-8')

# 创建一个Request对象，把url和data传进去，并且需要注意的使用的是POST请求
request = urllib.request.Request(url=self.url, data=data, method='POST')
# 打开这个请求
response = urllib.request.urlopen(request)
# 读取返回来的数据
result_str = response.read().decode('utf-8')
# 把返回来的json字符串解析成字典
result_dict = json.loads(result_str)

# 获取翻译结果
print('翻译的结果是：%s' % result_dict)

我们运行这个文件后，当我们输入的是hello的时候，我们可以得到哈罗的这个正确的翻译结果。而当我们输入其他需要翻译的字符串的时候，比如输入i love you，那么就会得到一个错误代码{"errorCode":50}。这就奇怪了，有道词典不可能只能翻译一个英文单词吧。而这个，就是有道词典的反爬虫机制。接下来我们就来破解有道词典的反爬虫机制。

二、破解反爬虫机制：

我们可以多次的进行翻译，并且每次翻译后都去查看翻译的时候发送的这个网络请求，比较每次翻译时候发送的Form Data的值。我们注意到，Form Data在每次发送网络请求的时候，只有i和salt以及sign这三个是不同的，其他的数据都是一样的，这里我用hello和world两个单词翻译时候Form Data的数据进行比较：

05.png

06.png

图中的Form Data也证实了我刚刚所说的，就是除了i、salt以及sign是不一样的。其余都是一样的。而i不一样是很正常的。因为i代表的是要翻译的字符串，这个不同是很正常。而salt和sign这两个东西不一样，是怎么产生的呢？这里我们可以分析一下，这两个值在每次请求的时候都不一样，只有两种情况：第一是每次翻译的时候，浏览器会从有道服务器获取一下这两个值。这样可以达到每次翻译的时候值不同的需求。第二是在本地，用JS代码按照一定的规则生成的。那么我们首先来看第一个情况，我们可以看到在每次发送翻译请求的时候，并没有一个请求是专门用来获取这两个值的：

07.png

所以就可以排除第一种情况。就只剩下一种可能，那就是在本地自己生成的，如果是在本地自己生成的，那么规则是什么呢？这里我们点击网页，查看网页源代码，查找所有的JS文件，我们找到那个fanyi.js：

08.png

然后点击这个文件，跳转到这个源文件中，然后全选所有的代码，复制下来，再打开站长工具：http://tool.chinaz.com/Tools/jsformat.aspx。把代码复制进去后，点击格式化：

09.png

然后把格式化后的代码，复制下来，用sublime或者pycharm打开都可以，然后搜索salt，可以找到相关的代码：

10.png

这里我们就可以发现所有的值的生成原理了。这里来做个简介：

d：代表的是需要翻译的字符串。
f：当前时间的时间戳加上0-10的随机字符串。
u：一个常量——fanyideskweb。
c：一个常量——rY0D^0'nM0}g5Mm1z%1G4。
salt：就是f变量，时间戳。
sign：使用的是u + d + f + c的md5的值。

知道salt和sign的生成原理后，我们就可以写Python代码，来对接他的接口了，以下是相关代码：

import urllib.request

import urllib.parse
import json
import time
import random
import hashlib

content = input('请输入需要翻译的句子：')

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule&sessionFrom=https://www.google.com/'

data = {}

u = 'fanyideskweb'
d = content
f = str(int(time.time()*1000) + random.randint(1,10))
c = 'rY0D^0\'nM0}g5Mm1z%1G4'

sign = hashlib.md5((u + d + f + c).encode('utf-8')).hexdigest()

data['i'] = content
data['from'] = 'AUTO'
data['to'] = 'AUTO'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = f
data['sign'] = sign
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CL1CKBUTTON'
data['typoResult'] = 'true'

data = urllib.parse.urlencode(data).encode('utf-8')
request = urllib.request.Request(url=url,data=data,method='POST')
response = urllib.request.urlopen(request)

print(response.read().decode('utf-8'))

写在最后：

像以上这种，通过用JS在本地生成随机字符串的反爬虫机制，在爬虫的时候是经常会遇到的一个问题。希望通过以上的讲解，能为大家提供一种思路。以后再碰到这种问题的时候知道该如何解决。这样本篇文章的目的也就达到了。另外，如果想精通爬虫技术，建议学习下这个课程，相信你学习完后有很大的成长：21天搞定Python分布式爬虫

最后编辑于：2018.03.07 21:08:05

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

破解有道翻译反爬虫机制