Nginx Proxy Cache原理和最佳实践

96
达斯顶狗
0.1 2016.10.12 13:59* 字数 2110

最近正将varnish上的cache policy迁移到nginx proxy cache上,并为后续使用memorycached缓存做好准备,下文对最近的工作进行下梳理和总结,欢迎纠错和探讨:

1. 基础

* 缓存概念

图一:nginx缓存原理
图一:nginx缓存原理

闷着头皮做了好几天,将最初的配置模版写出来了,但是忽略了最重要的一点:Basic Principles,所以让我老大批评了一顿,并改了不少东西,痛定思痛,开始看原理:上图是用户访问website流程图(nginx为proxy)
当第一个用户(蓝)访问网站,他的请求首先会到NGINX PROXY SERVER,随后NGNIX发往后端服务器(灰),后端会将请求的响应首先发往NGINX,由其返回给用户(蓝色),如果这个响应是可以缓存的,则NGINX会保留一份响应的副本,当其他用户(橙色)发起相同的request请求时,NGINX会根据request请求的内容是否存在于缓存中,来直接返回给用户,不经过后端。
这个场景同样适用于浏览器,CDN,用于缓存静态资源。

* HTTP缓存机制

后端服务器会通过响应包头来定义缓存特性:


图二:Origin Server定义的缓存特性
图二:Origin Server定义的缓存特性

当然,缓存服务器可以通过设置一些参数来忽略或者重写后端服务器的缓存特性,但后端服务器的缓存特性也是极其重要的。

.Expires: 最原始的配置策略,即设置过期时间,但使用效率低下,目前绝大部分已经被Cache-Control(有兴趣的可以去看下http1.0和http1.1);

.Cache-Control:定义缓存资源属性是private或者是public,并且设置缓存多久后过期,本例中,属性为public,60秒过期;

.X-Accel-Expires: 只有nginx能识别的缓存特性header,优先级大于上面两个header,可以设置此header,在nginx侧来重新定义缓存特性;

.Etag和Last-Modified是捆绑生成的: 有些场景下,你希望client端的浏览器长时间缓存,而缓存服务器只短时间缓存文件,以至于当后端服务器更新后,缓存服务器会及时同步,我们就可以使用最后两个header,Last-Modified表示最后修改时间,并声明一个ETag(哈希值),做为缓存内容的标签,具有唯一性;客户端访问请求带有If‑Modified‑Since或者If‑None‑Match header,并申明自己的客户端带有静态缓存文件,以及文件修改日期和ETag值,如果服务器端的版本和Etag值与客户端一致,则服务端会直接返回304 not modified,这个验证流程是非常快的,并且节省网络带宽;

.如果Cache-Control设置为public,则客户端不会去验证资源的有效性,将会一直使用直到过期,同时public也代表资源可以被缓存在web proxy中;

.如果Cache-Control包含must-revalidate,则客户端每一次访问请求资源都会去验证缓存是否有更新;

* NGINX都会缓存哪些资源

2. 最佳实践

首先看下nginx proxy cache最基本的配置:

proxy_cache_path /path/to/cache levels=1:2 keys_zone=my_cache:10m max_size=10g inactive=60m use_temp_path=off;
server {
     set $upstream http://ip:port
          location / {
                   proxy_cache my_cache;
                   proxy_pass $upstream; }
         }

配置项说明:

  • /path/to/cache : 本地路径,缓存文件存放地址;
  • levels : 默认所有缓存文件都放在同一个/path/to/cache下,从而影响缓存的性能,大部分场景推荐使用2级目录来存储缓存文件;
  • key_zone : 在共享内存中设置一块存储区域来存放缓存的key和metadata(类似使用次数),这样nginx可以快速判断一个request是否命中或者未命中缓存,1m可以存储8000个key,10m可以存储80000个key;
  • max_size : 最大cache空间,如果不指定,会使用掉所有disk space,当达到配额后,会删除最少使用的cache文件;
  • inactive : 未被访问文件在缓存中保留时间,本配置中如果60分钟未被访问则不论状态是否为expired,缓存控制程序会删掉文件,默认为10分钟;“需要注意的是,inactive和expired配置项的含义是不同的,expired只是缓存过期,但不会被删除,inactive是删除指定时间内未被访问的缓存文件”;
  • use_temp_path : 如果为off,则nginx会将缓存文件直接写入指定的cache文件中,而不是使用temp_path存储,official建议为off,避免文件在不同文件系统中不必要的拷贝;
  • proxy_cache : 启用proxy cache,指定key_zone;

附:缓存和代理中常用的配置项

上文讲述了如何配置最基础的proxy cache,接下来,会对常用的高级配置项进行梳理。

  • proxy_no_cache string;

Default: —
Context: http , server , location
config example:
proxy_no_cache $cookie_nocache $arg_nocache $arg_comment;
proxy_no_cache $http_pragma $http_authorization;

$cookie_nocache $arg_nocache...皆为变量,可以根据你访问的匹配策略来设置,其值只有2类,0和非0;
访问匹配策略例如:
if ($request_uri ~ ^/(login|register|password\/reset)/) { set $cookie_nocache 1; }
如果在此链式配置中,只要有一个值不为0,则不会cache;例如:proxy_no_cache $cookie_nocache(0) $arg_nocache(1) $arg_comment(0),不会被cache。`
注:一般会配合proxy_cache_bypass共同使用;

  • proxy_cache_bypass string;

Default: —
Context: http , server , location
config example:
proxy_cache_bypass $cookie_nocache $arg_nocache$arg_comment;
proxy_cache_bypass $http_pragma $http_authorization;

定义在哪些情况下不从cache读取,直接从backend获取资源;配置方式同proxy_no_cache

  • proxy_cache_key string;

Default: proxy_cache_key $scheme$proxy_host$request_uri;
Context: http, server, location

自定义cache key,例如:
proxy_cache_key "$host$request_uri $cookie_user";
默认值为:
proxy_cache_key $scheme$proxy_host$uri$is_args$args;

  • proxy_cache_methods GET| HEAD|POST...;

Default: proxy_cache_methods GET HEAD;
Context: http, server, location

指定客户端那些方法被缓存,默认为GET|HEAD。

  • proxy_cache_purge string ...;

Default: —
Context: http, server, location
config example:
proxy_cache_path /data/nginx/cache keys_zone=cache_zone:10m;
map $request_method $purge_method {
     PURGE 1;
     default 0;
}
server {
     ...
     location / {
          proxy_pass http://backend;
          proxy_cache cache_zone;
          proxy_cache_key $uri;
          proxy_cache_purge $purge_method;
     }
}

定义缓存清除场景,同proxy_no_cacheproxy_cache_bypass链式配置方式,只要又一个不为0,则清除对应的cache key则会被清除,并返回204 response。注意,这里是删除内存中的cache key,而不是disk上的cache文件!!!disk的cache文件是由inactive控制;
当purege request的cache key以通配符*结束时,所有匹配到通配符的cache入口的cachekey都会被删除。

  • proxy_cache_valid *[code...] time *;

Default: —
Context: http, server, location

设置不同相应码的缓存时间,当不指定响应码的时候,例如
proxy_cache_valid 5m;
只对响应码为200,301,302的访问请求资源设置缓存时间,此外可以个性化定制,例如:
proxy_cache_valid 200 302 10m; proxy_cache_valid 301 1h; proxy_cache_valid 404 1m; proxy_cache_valid any 1m;
此外,还可以在相应header里设置优先级更高的缓存有效时间:

  1. “X-Accel-Expires”,设置响应的缓存过期时间,以秒为单位;0为不缓存;
  2. 如果没有设置“X-Accel-Expires” header,则关于缓存的配置策略可能会在“Expires”或者“Cache-Control” header中;
  3. 如果header含有“Set-Cookie”,则响应不会被缓存,类似的配置可以在“proxy_ignore_header”中可见;
  4. header包含“Vary”并且设置为“*”,则请求不会被缓存,如果“Vary”有具体的值,则对应的请求会被缓存;
  • proxy_ignore_headers field

Default: —
Context: http, server, location

不缓存包含在field的响应header,可以设置的值有:“X-Accel-Redirect”, “X-Accel-Expires”, “X-Accel-Limit-Rate”,“X-Accel-Buffering”, “X-Accel-Charset”, “Expires”, “Cache-Control”, “Set-Cookie” (0.8.44), and “Vary”。
如果上述的header field没有设置为忽略,则header filed中有“X-Accel-Expires”, “Expires”, “Cache-Control”, “Set-Cookie”, and “Vary”的话,响应会被缓存。

  • proxy_pass_headers field
  • proxy_hide_headers field

Default: —
Context: http, server, location


参考: 1.http://czerasz.com/2015/03/30/nginx-caching-tutorial/ 2.https://www.nginx.com/blog/nginx-caching-guide/ 3.https://www.nginx.com/blog/nginx-high-performance-caching/ 4.http://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_ignore_headers 5.http://www.slideshare.net/Nginx/nginx-highperformance-caching 6.https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/http-caching 7.http://tengine.taobao.org/nginx_docs/cn/docs/http/ngx_http_proxy_module.html#proxy_ignore_headers 8.https://forum.nginx.org/read.php?2,265703,265704#msg-265704

NGINX