HTTP学习

HTTP概述

HTTP是一种能够获取如 HTML 这样的网络资源的protocol(通讯协议)。 它是在Web上进行数据交换的基础,是一种client-server协议。也就是说,请求通常由浏览器这样的接受方发起的。一个完整的Web文档通常由不同的子文档拼接而成,像文本,布局描述,图片,视频,脚本等等。

image

客户端和服务端通过交换各自的消息(与数据流正好相反)进行交互。由像浏览器这样的客户端发出的消息叫做 requests,被服务端回应的消息叫做response。

image

HTTP被设计于20世纪90年代初期,是一种可扩展的协议。它是应用层的协议,通过TCP,或者TLS-加密的TCP连接来发送,理论上任何可靠的传输协议都可以使用。因为其良好的扩展性,时至今日,它不仅被用来传输超文本文档,还用来传输图片,视频,或者向服务器发送如HTML表单这样的信息。HTTP还可以根据网页需求,仅获取部分Web文档内容更新网页。

基于HTTP的组件系统

HTTP是一个client-server协议:请求通过一个实体被发出,实体也就是用户代理。大多数情况下,这个用户代理都是浏览器,当然它也可能是任何东西,比如一个爬取网页生成维护搜索引擎索引的机器爬虫。

每一个发送到服务器的请求,都会被服务器处理并返回一个消息,也就是response。在这个请求与回应之间,还有许许多多的被称为proxies的实体,它们的作用于表现各不相同,比如有些是网关,还有些是caches

image

实际上,在一个浏览器和处理请求的服务器之间,还有路由器、调制解调器等许多计算机。由于Web的层次设计,那些在网络层和传输层的细节被隐藏起来了。HTTP位于最上层的应用层。虽然底层对于分析网络问题非常重要,但是大多都对HTTP的描述不相干。

客户端: user-agent

user-agent 就是任何能够为用户发起行为的工具。这个角色通常都是由浏览器来扮演。(一般的用户访问)。但是也有例外情况(对于我们来说,就是日常工作了) 比如工程师使用的程序,以及Web开发人员调试应用程序。

浏览器总是作为一个发起请求的实体,他永远不是服务器(虽然近几年已经出现一些机制能够模拟由服务器发起的请求消息了(将浏览器模拟成一个服务器向服务器发送请求吗?)

要展现一个网页,浏览器首先发送一个请求来获取页面的HTML文档,再解析文档中的资源信息发送其他请求,获取可执行脚本或CSS样式来进行页面布局渲染,以及加载一些其他页面资源(如图片和视频等)然后,浏览器将这些资源整合到一起,展现出一个完整的文档:也就是网页。浏览器执行的脚本可以在之后的阶段获取更多资源,并相应的更新网页。

一个网页就是一个超文本文档,也就是说,有一部分显示的文本可能是链接,启动它(通常是鼠标点击)就可以获取一个新的网页,使得用户可以控制客户端进行网上冲浪。浏览器来负责发送HTTP请求,并进一步解析HTTP返回的消息,以向用户提供明确的响应。

Web服务端

在上述通信过程的另一端,是由webservice。来服务并提供客户端请求的文档。Server只是虚拟意义上代表一个机器:她可以是共享负载(负载均衡)的一组服务器组成的计算机集群,也可以是一种复杂的软件,通过向其他计算机(如缓存,数据库服务器,电子商务服务器…)发起请求来获取部分或全部资源。

Server不一定是一台机器,但一个机器上可以装多个Server。在HTTP/1.1 和Host头部种,它们甚至可以共享同一个IP地址(意思是多个Server 可以共享同一个IP地址。)

代理(proxies)

在浏览器和服务器之间,有许多计算机和其他设备转发了HTTP消息。由于Web栈层次结构的原因,它们大多都出现在传输层、网络层和物理层上,对于HTTP应用层而言是透明的,虽然它们可能会对应用层性能有重要影响。还有一部分是表现在应用层上的,被称为代理(Proxies)。代理既可以表现的透明,也可以不透明('改变请求'不会通过它们)->这个的意思是可以对HTTP Method进行过滤? 代理主要有以下几个作用:

  • 缓存(可以是公开的也可以是私有的,像浏览器的缓存)

  • 过滤(像反病毒扫描,家长控制)

  • 负载均衡(让多个服务器服务不同的请求)

  • 认证(对不同资源进行权限管理)

  • 日志记录(允许存储历史信息)

HTTP的基本性质

HTTP是简单的

虽然下一代HTTP/2协议将HTTP消息封装到了帧(frames)中,HTTP大体上还是被设计得简单易读。HTTP报文能够被人读懂,还允许简单测试,降低了门槛,对新人很友好。

HTTP是可扩展的

在HTTP/1.0中出现的 HTTP headers 让协议扩展变得非常容易。只要服务端和客户端在 headers达成语意一致,新功能就可以轻松被加进来。

HTTP是无状态的,有会话的

HTTP是无状态的:在同一个连接中,两个执行成功的请求之间是没有联系的。这就带来了一个问题,用户没有办法在同一个网站中进行连续的交互,比如在一个电商网站里,用户把某个产品加入到购物车,切换一个页面之后再次添加了商品,这两次添加商品之间的请求没有关联,浏览器无法知道用户最终选择了哪些产品。而使用HTTP的头部扩展,HTTP Cookies就可以解决这个问题。把Cookies添加到头部中,创建一个会话让每次请求都能共享相同的上下文信息,达成相同的状态。

注意,HTTP的本质是无状态的,使用Cookies可以创建有状态的会话。

HTTP和连接

一个连接是由传输层来控制的,这从根本上不属于HTTP的范围。HTTP并不需要其底层的传输层协议是面向连接的,只需要它是可靠的或不丢失消息的(至少返回错误)。在互联网中,有两个最常用的传输层协议:TCP是可靠的而UDP不是。因此,HTTP依赖于面向连接的TCP进行消息传递,但是连接并不是必须的。

HTTP/1.0为每个请求/响应都打开一个TCP连接,导致了2个缺点:打开一个TCP连接需要多次往返消息传递,因此速度慢。(三次握手)但当多个消息周期性发送时,这样就变得更加高效:暖连接要比冷连接更加高效。

为了减轻这些缺陷,HTTP/1.1引入了流水线(事实证明难以实现)和持久连接的概念:底层的TCP连接可以通过Connection 头部来被部分控制。HTTP/2则发展得更远,通过一个连接复用消息的方式来让这个连接始终保持为暖连接。

为了更好的适合HTTP,设计一种更好的传输协议的进程一直在进行,Google就研发了一种以UDP为基础,能提供更可靠更高效的传输协议

HTTP能控制什么

多年以来HTTP良好的扩展性使得越来越多的Web功能归其控制。缓存和认证很早就可以由HTTP来控制了。另一方面,对同源同域(跨域问题!)的限制到2010年才有所改变。

以下是可以被HTTP控制的常见特性。

  • 缓存

    文档如何缓存能通过HTTP来控制。服务端能告诉代理和客户端哪些文档需要被缓存,缓存多久,而客户端也能够命令中间的缓存代理来忽略存储的文档。

  • 开放同源限制

    为了防止网络窥听和其他隐私泄漏,浏览器强制对Web网站做了分割限制。只有来自于相同来源的网页才能够获取网站的全部信息。这样的限制有时反而成了负担,HTTP可以通过修改头部来开放这样的限制,因此Web文档可以是由不同域下的信息拼接成的(某些情况下,这样做还有安全因素的考虑)

  • 认证

    一些页面能够被保护起来,仅让特定用户进行访问。基本的认证功能可以直接通过HTTP提供,使用Authenticate相似的头部即可,或用HTTP Cookies来设置制定的会话。

  • 代理和隧道

    通常情况下,服务器和客户端是出于内网的,对外网隐藏真实IP地址。因此HTTP请求就要通过代理越过这个网络屏障。但并非所有的代理都是HTTP代理。例如SOCKS协议的代理就运作在更底层,一些像FTP这样的协议也能够被它们处理。

  • 会话

    使用HTTP Cookies允许你用一个服务端的状态发起请求,这就创建了会话。虽然基本的HTTP是无状态协议。这很有用,不仅是因为这能应用到像购物车这样的电商业务上,更是因为这使得任何网站都能轻松为用户定制展示的内容了。

HTTP 流

当客户端像要和服务端进行信息交互时(服务端指的是最终服务器,或者是一个中间代理),过程表现为下面几步:

  1. 打开一个TCP连接:TCP连接被用来发送一条或多条请求,以及接受回应消息。客户端可能打开一条新的连接,或重用一个已经存在的连接,或者也可能开几个新的TCP连接连向服务端。

  2. 发送一个HTTP报文:HTTP报文(在HTTP/2之前)是语义可读的。在HTTP/2中,这些简单的消息被封装在了桢中,这使得报文不能被直接读取,但是原理仍然是相同的。

<pre spellcheck="false" class="md-fences md-end-block md-fences-with-lineno ty-contain-cm modeLoaded" lang="HTTP" contenteditable="false" cid="n97" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-size: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-top-left-radius: 3px; border-top-right-radius: 3px; border-bottom-right-radius: 3px; border-bottom-left-radius: 3px; padding: 8px 1em 6px 0px; margin-bottom: 15px; margin-top: 15px; width: inherit; caret-color: rgb(51, 51, 51); color: rgb(51, 51, 51); font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-indent: 0px; text-transform: none; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; text-decoration: none; background-position: inherit inherit; background-repeat: inherit inherit;"> GET / HTTP/1.1
Host: developer.mozilla.org
Accept-Language: fr
​</pre>

  1. 读取服务端返回的报文信息

<pre spellcheck="false" class="md-fences md-end-block md-fences-with-lineno ty-contain-cm modeLoaded" lang="HTTP" contenteditable="false" cid="n101" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-size: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-top-left-radius: 3px; border-top-right-radius: 3px; border-bottom-right-radius: 3px; border-bottom-left-radius: 3px; padding: 8px 1em 6px 0px; margin-bottom: 15px; margin-top: 15px; width: inherit; caret-color: rgb(51, 51, 51); color: rgb(51, 51, 51); font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-indent: 0px; text-transform: none; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; text-decoration: none; background-position: inherit inherit; background-repeat: inherit inherit;"> HTTP/1.1 200 OK
Date: Sat, 09 Oct 2010 14:28:02 GMT
Server: Apache
Last-Modified: Tue, 01 Dec 2009 20:18:22 GMT
ETag: "51142bc1-7449-479b075b2891b"
Accept-Ranges: bytes
Content-Length: 29769
Content-Type: text/html

<!DOCTYPE html... (here comes the 29769 bytes of the requested web page)
​</pre>

  1. 关闭连接或者为后续请求重用连接。

当HTTP流水线启动时,后续请求都可以不用等待第一个请求的成功回应就被发送。然而HTTP流水线已被证明很难再现有的网络中实现,因为现有网络中有很多老旧的软件与现代版本的软件共存。因此,HTTP流水线已被多并发表现更好的HTTP/2的帧所取代。

HTTP报文

HTTP/1.1以及更早的HTTP协议报文都是语义可读的。在HTTP/2中,这些报文被嵌入到了一个新的二进制结构-帧。帧允许实现很多优化,比如报文头部的压缩和复用。即使只有原始HTTP报文的一部分以HTTP/2发送出来,每条报文的语义依旧不变,客户端会重组原始HTTP/1.1请求。因此用HTTP/1.1格式来理解HTTP/2报文仍旧有效。

有两种HTTP报文类型,请求与回应每种都有其特定的格式。

请求

例子:

image

请求由以下元素组成:

  • 一个HTTP的Method经常是由一个动词像GET,POST,或者一个名词像OPTIONS,HEAD,来定义客户端的动作行为。通常客户端的操作都是获取资源(GET)或者发送HTML form表单值(POST)虽然在一些情况下也会有其他操作。

  • 要获取的资源的路径,通常是上下文中就很明显的元素资源的URL,它没有protocol(http://),domain(devoloper.mozilla.org),或是TCP的port(HTTP默认端口是80)。

  • HTTP协议的版本号

  • 为服务端表达其他信息的可选头部headers https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers

  • 对于一些像POST这样的方法,报文的body就包含了发送的资源,这与回应报文的body类似。

回应

HTTP回应的一个例子:

image

回应报文包含了下面的元素:

  • HTTP协议版本号

  • 一个状态码(status code)

  • 一个状态信息,这个信息是非权威的状态码描述信息,可以由服务端自行设定。

  • 一个HTTP headers与请求头类似。

  • 可选项,比起请求报文,响应报文中更常见地包含获取的资源body。

    ————

总结

HTTP是一种简单可扩展的协议,其Client-Server的结构以及轻松扩展头部信息的能力使得HTTP可以和WEB共同发展。

即使HTTP/2为了提高性能将HTTP报文嵌入到帧这一举措增加了复杂度,但是从Web应用的角度来看,报文的基本结构没有变化,从HTTP/1.0发布起就是这样的结构。会话流依旧简单,通过一个简单的HTTP meesage monitor就可以查看和纠错。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270

推荐阅读更多精彩内容