爬小黄图的第一步——HTTP协议

回头想想,从最开始学习编程开发到现在也有五年多了,记得自己的第一个作品是一个基于WEBQQ协议的QQ聊天机器人,从它身上我学到了至今甚至以后很长时间都需要的一个知识点——HTTP协议。

自打互联网诞生以来,HTTP协议始终就是非常重要的一个环节,因为网络中的很大部分数据都是基于HTTP协议来传输的。比如浏览网页,比如你整天刷朋友圈、刷微博,甚至你现在能够看到这篇文章,它们都是通过HTTP协议送到你的面前的。

如果你搞懂了HTTP协议,那么你就可以做很多有趣的东西。

比如做个QQ聊天机器人让你的QQ能够自动与人聊天;

比如做个机器人让它每天替你去做QQ等级加速的任务;

比如做个论坛或贴吧的自动发帖器自动抢沙发;

比如你突然心血来潮想把自己微博下的几千条微博全部删掉。

是不是有点意思呢?

其实这些都是小玩意儿。

还记得那些关于爬虫的文章吗?


我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!
我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言!

这是一个大数据时代,但是普通开发者如何才能拿到大数据呢?

爬虫就是一个很好的解决方案。不论QQ空间还是知乎,不论淘宝还是京东,都可以利用爬虫爬去他们的数据拿来做我们自己的数据分析。

那么,所谓爬虫到底是什么呢? 其实爬虫就是一个根据一定的规则发送HTTP请求的小程序。

现在你知道HTTP的重要性了吧?

下面我们就来讲解下HTTP协议。

什么?你不要听?没意思?那么如果我告诉你利用爬虫还可以爬小黄图呢?是不是已经迫不及待了呢?

咳咳咳~

不要乱想了!

还是先来学HTTP吧!!!

昨天已经说过了,HTTP协议主要分为两部分,Request和Response,下面我们一个一个来讲解下。

Request

GET / HTTP/1.1

Host: 61.135.169.125

User-Agent: Mozilla/5.0 (Macintosh;Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36

Cookie: BAIDUID=F2AA23D33A77970AEAC

GET / HTTP/1.1

GET是一种HTTP的请求方法,还有POST。这是最常用的两种方法,GET其实就是在进行最普通的URL访问。每当我们在浏览器的地址栏输入一个网址进行访问的时候都是发起了一个GET类型的HTTP请求。比如这个网址http://php.net/manual/zh/book.yaf.php

访问这个地址发出的HTTP数据就是:

GET /manual/zh/book.yaf.php  HTTP/1.1

HTTP/1.1是HTTP的版本,是99年发布出来的,目前主流的浏览器都是采用这个版本。

ps:在去年中旬HTTP/2也发布了,不过貌似只有谷歌在Chrome中已经全面启用了HTTP/2。

Host: 61.135.169.125

Host其实就是目标服务器地址,可以是域名,也可以是IP地址。比如上面那个URL,在HTTP中的表现就是

Host: php.net

看到这里是不是知道了什么呢?

没错,昨天题目的答案其实你去访问一下这个IP地址就知道了。

User-Agent: Mozilla/5.0 (Macintosh;Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36

User-Agent是指浏览器,通过它告诉服务器这个request是通过什么浏览器发出来的。

Cookie: BAIDUID=F2AA23D33A77970

现在你肯定已经明白了访问网页就是不断的发送与接收HTTP数据,那么需要登录的网站是如何识别你的登录状态的呢?

答案就是Cookie!

Cookie你可以把它理解为一种临时的身份标示。当你登录一个网站,这时候实际上就是从服务器获得了一个cookie,这个cookie保存在你的浏览器上,这样你之后再发送的HTTP请求就会自动的带上这个cookie发送给服务器,服务器通过这个cookie就能识别到你是一个已经登录的用户,这样就可以访问到你的私人数据了。

聪明的你一定猜到了什么。

没错,所谓退出登录其实就是清除了cookie。

Response

HTTP/1.1 200 OK

Server: bfe/1.0.8.14

Date: Sat, 27 Feb 2016 13:59:27 GMT

Content-Type: text/html;charset=utf-8

Transfer-Encoding: chunked

Connection: keep-alive

Cache-Control: private

Expires: Sat, 27 Feb 2016 13:59:27 GMT

Content-Encoding: gzip

HTTP/1.1 200 OK

HTTP/1.1 前面已经说过了,HTTP的版本。

200是HTTP的返回状态代码。200 OK 代表正常返回。其他常见的还有404代表找不到页面。302代表重定向跳转。502代表服务器错误。

Server: bfe/1.0.8.14

Server顾名思义就是服务器,这里告诉了我们网站是用的什么服务器及服务器的版本,我这个抓的是百度的包,这里是bfe,据说是是百度自己研发的一套前端接入系统。我们常见的Web服务器主要是Apache和Nginx。

Date: Sat, 27 Feb 2016 13:59:27 GM

这个也很好理解,就是服务器的响应时间。

Content-Type: text/html;charset=utf-8

返回的数据类型,text/html意思就是html代码,charset指的是编码格式。我们常用的编码格式就是utf-8和gbk。我们常用的数据类型还有 image/jpeg,image/png,text/css,text/json,text/xml等等。

今日题目:

VGhlIHR3ZW50eS1maWZ0aCBGaWJvbmFjY2kgbnVtYmVyIGlzPw==

注:将答案回复给公众号【不谈代码】即可赚取M币。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容