使用socket进行tcp数据传输的简单过程
Socket是TCP/UDP传输层的API, HTTP是在tcp上的应用层API. 因此HTTP请求离不开底层的socket.
下面是一个常见的socket tcp请求的流程:
- client和server都要创建一个socket对象
-
client.socket
需要设置请求server的ip+port
, 然后server.socket调用bind
方法将server.socket对象绑定到指定的port
提供给client请求 - server端需要设置
socket
成被动listen
状态, 此时服务器就能监听client的connect
-- (注意:此时server就能接受client的connect
, 只不过由于server没有accept, 所以client.connect
方法会阻塞, 并且在server端内核中client的connet请求会进行排队) -
client.socket
调用connet
并阻塞, 等待server调用accept
方法, 在accept
方法返回之前,client.connect
方法是阻塞的.如果server可以调用accept
方法, 会生成一个connfd, 就是server与client通信使用的connfd. 此时客户端的connect返回
- 一旦连接建立, server和client就能互相发送
二进制字节流数据
!!! - 当通讯结束, 两者都需要调用
close
关闭socket.
由于tcp的socket是一个面向字节流
协议, 因此在两个socket之间的数据流是字节流
,因此在tcp-socket上层封装的协议都需要自己去实现数据格式
的解析.
常见的由使用\r\n
换行符作为数据拆分的, 就比如本文涉及的HTTP协议;还有指定前多少个字节的结构, 指定后面body体长度的方式的,比如MQTT协议.
HTTP协议的简单基础
本文讨论的HTTP协议是简单的文本协议, 也就是在建立tcp socket连接以后, 两个connected socket发送和接受的数据都是文本数据
!!!
超简洁的实例 ——关于HTTP协议分析 中讲的非常透彻, 有两点需要我们注意:
- HTTP是一个
无状态
的协议 - HTTP的request/response的结构, 主要是各种header/body体
虽然HTTP是一个无状态
的协议, 但是我们会用Cookie
或者Session
来扩展HTTP的功能帮助我们记录一些状态, 同时还有一个技术, 比如Connection:keep-alive
,http pipelining
来帮助优化HTTP的性能.
ps1:
注意:每个Header一行一个,换行符是\r\n
. 当连续两个\r\n
表示Header部分结束, 后面的数据全部是body. HTTP响应如果包含body,也是通过\r\n\r\n
来分隔的。同时body
的数据类型是由Content-Type
头来决定的,如果是网页, body就是文本, 如果是图片,body就是二进制数据
ps2:
而keep-alive
则指的是客户端与服务器之间的 socket 在一次通信结束后并不立即关闭,可以重复使用。但是里边传输的协议消息依旧是无状态的。这么做的主要目的,是为了避免 socket 建立过程的开销。socket 的建立开销是很大的,至少要有三次握手,也就是说三次往返。如果短时间内有大量消息需要传递的话,这个花费是很可观的。除了keep-alive
以外为了优化 http 的性能,还有http pipelining
之类的优化方法。这种策略会一次发送多个请求(见下图),为了突出主干就不赘述了。
URL的格式
URL的完整参考是如下:, 其中[]
中表示可选
scheme:[//[user:password@]host[:port]][/]path[?query]
协议:[//[用户名:密码@]主机名[:端口号]][/]路径[?查询]
DNS与HTTP
由于在使用HTTP请求时, 一般都使用域名domain
在作为URL
的host
字段, 而在socket建立connect
时,需要绑定ip
和port
, 因此需要DNS
系统来帮忙将domain
转化成ip
进行处理.
下面是一个使用curl
进行HTTP
请求的完整实例:
➜ ~ curl http://www.baidu.com/ --verbose
* Trying 14.215.177.38...
* TCP_NODELAY set
* Connected to www.baidu.com (14.215.177.38) port 80 (#0)
> GET / HTTP/1.1
> Host: www.baidu.com
> User-Agent: curl/7.58.0
> Accept: */*
>
< HTTP/1.1 200 OK
< Accept-Ranges: bytes
< Cache-Control: private, no-cache, no-store, proxy-revalidate, no-transform
< Connection: keep-alive
< Content-Length: 2381
< Content-Type: text/html
< Date: Sun, 28 Feb 2021 13:26:57 GMT
< Etag: "588604d8-94d"
< Last-Modified: Mon, 23 Jan 2017 13:27:52 GMT
< Pragma: no-cache
< Server: bfe/1.0.8.18
< Set-Cookie: BDORZ=27315; max-age=86400; domain=.baidu.com; path=/
<
<!DOCTYPE html>
<!--STATUS OK--><html> <head><me....
...
我们能看到实际在底层进行socket连接时, 使用的百度的ip地址14.215.177.38
. 并且查看了curl
的源码以后,知道curl
底层使用的getaddrinfo
方法使用的LocalDNS将domain
->ip
.
因此使用domain作为URL.host的HTTP请求的流程是: DNS 解析 -> TCP 连接 -> Request -> Response
TLS与HTTP
在日常使用中, 我们更多的使用的时HTTPS, 也就是 TLS + HTTP协议, 也就是说在tcp-socket基础上, 我们又引入了TLS协议配合HTTP使用.
最终HTTPS的完整流程是: DNS 解析 -> TCP 连接 -> TLS 握手 -> Request -> Response
TLS包含三个基本阶段(完整的握手):
- 对等协商支援的密钥算法
- 基于私钥加密交换公钥,基于PKI证书的身份认证
- 基于公钥加密的数据传输保密
当client和server初次建立TLS握手时(比如浏览器访问HTTPS网站), 双方会建立一个完整的TLS连接!!!
具体的流程如下:
- client像server发送请求
https://www.baidu.com:443/
, 然后底层构建的socket会connect, server的443端口. 然后发送client支持的cipher suites
以及random number1
, 也就是发起握手信息 - server收到connect以后响应握手信息, 返回
random number2
和匹配好的加密算法. - server继续给client发送第二个响应报文就是server的
certificate
, 内部是对称加密证书中的public key
, 还有证书签发机构, 过期时间, 域名信息等. - client收到证书以后, 解析该证书, 进行
evaluate trust certificate
.如果证书OK, 那么生成一个随机值(预主秘钥)
- client认证证书通过以后, 通过
random1
+random2
+预主秘钥
组装session
作为会话秘钥, - client通过证书中的
public key
加密会话密钥, 并发送给server - 服务端通过私钥解谜会话秘钥, 得到随机值1、随机值2和预主秘钥,然后组装会话秘钥,跟客户端会话秘钥相同。
- 客户端通过会话秘钥加密一条消息发送给服务端,主要验证服务端是否正常接受客户端加密的消息。
- 同样服务端也会通过会话秘钥加密一条消息回传给客户端,如果客户端能够正常接受的话表明SSL层连接建立完成了.
- 后续的HTTP请求就在这个秘钥的加密下完成通信
SSL/TLS握手过程 中讲的更加详细
参考
自制 HTTP 服务器之 Socket 编程与 HTTP 协议(1)