WEB请求过程

一、一个例子

当用户在浏览器中输入www.xxx.com这个URL时,
首先,DNS会把这个域名解析成IP地址,
然后根据这个IP找到对应的服务器,并发起一个get请求,
对于服务器端而言,
可能会有负载均衡设备来平均分配用户请求,
而请求的数据可能在分布式缓存里,静态文件中,或是数据库中,
当数据返回给浏览器时,浏览器解析数据发现还有些静态文件(CSS、JS、图片...),又会发起另外的HTTP请求,而这些请求,很可能落在CDN上。

例子.png

不过网络架构如何变化,始终有一些固定不变的原则需要遵守:

  • 互联网上所有资源都要用一个URL来表示。
  • 必须基于HTTP与服务端
二、发起Http请求

发起一个Http请求和建立一个Socket连接区别不大,只不过outputStream.write写的二进制字节数据格式要符合HTTP。浏览器在建立Socket连接之前,必须根据地址栏输入的URL的域名DNS解析出IP地址,在根据这个IP地址和默认的80端口与远程服务器建立Socket连接,然后浏览器根据这个URL组装成一个get类型的HTTP请求头,通过outputStream.write发送到目标服务器,服务器等待inputStream.read返回数据,最后断开这个连接。

模拟浏览器发送Http请求:
httpClient
curl

三、Http解析

要理解Http,最重要的就是熟悉Http中的Http Header,Http Header控制着互联网上成千上万的用户的数据的传输。最关键的是,它控制着用户浏览器的渲染行为和服务器的执行逻辑。

** 浏览器缓存机制:**
在我们浏览一个页面发现有异常时,通常考虑是不是浏览器做了缓存,一般做法Ctrl+F5(mac chrome为command+shift+R)重新请求一次这个页面,该页面肯定是最新的页面。

原因:

  1. 浏览器直接向目标Url发送请求,不用浏览器缓存。
  2. 即使应用服务器前端部署缓存服务器,也能看到最新的数据,因为通过Http请求头来控制,具体如下。

请求头新增两个请求项:

  • Pragma:no-cache
  • Cache-Control:no-cache
  1. Cache-Control/Pragma
    这个Http Head字段用于指定所有缓存机制在整个请求/响应链中必须服从的指令
Http Head 字段可选值
  1. Expires
    Expires通常的使用格式是Expires:Sat, 25 Feb 2012 12:22:17 GMT, 后面跟着一个日期和时间,超过这个时间后,缓存的内容将失效,也就是浏览器在发请求之前接着页面的这个字段,看页面是否过期,过期就重新向服务器发送请求。

  2. Last-Modified/Etag
    Last-Modified字段用于表示一个服务器上的资源的最后修改时间,一般服务端在响应头中返回该字段,浏览器再次请求shi时在请求头中增加一个If-Modified-since字段,询问当前缓存页面是否最新,若是,返回304状态码,告诉浏览器是最新,服务器也不会传输新的数据。

Etag与上述字段相似,让服务端给每个页面分配一个唯一的编号,通过编号来区分这个页面是否最新。

四、DNS域名解析
  1. 解析过程
DNS域名解析

当用户在浏览器中输入域名按下回车:
(1)浏览器先查缓存,若缓存中有域名对应IP地址,则解析结束。(存活时间TTL)
(2)若浏览器缓存中没有,浏览器会查询操作系统中缓存缓存是否有这个域名对应的DNS解析结果。(hosts 文件)
(3)如果在本机中仍然无法完成域名的解析,则会真正请求域名服务器来解析这个域名了。操作系统会把域名发送给设置的LDNS(cat /etc/resolv.conf)。
(4)若LDNS没有命中,就直接到Root Server域名服务器请求解析。
(5)根域名服务器返回本地域名服务器一个所查询域的主域名服务器(gTLD Server)地址。GTLD是国际顶级域名服务器,如.com、.cn、.org等,全球只有13台左右。
(6)本地域名服务器(Local DNS Server)再向上一步返回的GTLD服务器发送请求。
(7)接受请求的GTLD服务器查找并返回此域名对应的Name Server域名服务器,这个Name Server通常就是你注册的域名服务器,例如你在某个域名服务提供商申请的域名,那么这个域名解析任务就有这个域名提供商的服务器来完成。
(8)Name Server返回IP记录和TTL(缓存时间)。
(9)LDNS缓存该记录,缓存时间有TTL控制。
(10)解析结果返回给用户,用户根据TTL值缓存在本地系统缓存中,域名解析过程结束。

在实际的DNS解析过程中,可能不止这10步,如Name Server可能有多级,或者有一个GTM来负载均衡控制等。

可通过nslookup、dig 命令来跟踪域名解析过程。

五、CDN工作机制

CDN即内容分发网络(Content Delivery Network),目的是通过现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络边缘,使用户可以就近取得所需内容,提高用户访问网站响应速度。

CDN = 镜像(Mirror)+ 缓存(Cache)+ 整体负载均衡(GSLB)

目前CDN都已缓存网站中静态数据为主。

**CDN 架构: **

CDN架构

** CDN动态加速 **

CDN的动态加速技术也是当前比较流行的一种优化技术,是在CDN的DNS解析中通过动态的链路探测来寻找回源最好的一条路径,然后通过DNS的调度将所有请求调度到选定的这条路径上回源,从而加速用户的访问。

CDN动态加速

推荐阅读更多精彩内容