LVS负载均衡

1字数 4788阅读 985

本文部分观点图片采用于:http://chenx1242.blog.51cto.com

随着智能机的逐渐普及,大量的APP应用使的现在生活越来越方便。基本上在完成一部手机走天下。而在大规模互联网应用中源于互联网应用的高并发和大流量的冲击压力,使用负载均衡设备,分流流量,可以大大减轻服务器的压力。

一、负载均衡的作用

负载均衡设备的任务就是作为应用服务器流量的入口,首先挑选最合适的一台服务器,绑定一个或多个ip地址,然后将客户端的请求转发给这台服务器处理,实现客户端到真实服务端 的透明转发。最近几年很火的「云计算」以及分布式架构,本质上也是将后端服务器作为计算资源、存储资源,由某台管理服务器封装成一个服务对外提供,客户端 不需要关心真正提供服务的是哪台机器,在它看来,就好像它面对的是一台拥有近乎无限能力的服务器,而本质上,真正提供服务的,是后端的集群。

一个典型的互联网应用的拓扑结构是这样的:

二、负载均衡(LB:Load Balancing)负载均衡的类型

1.基于软硬件分类:

硬件:F5 Big-IP,Citrix Netscaler,A10 A10

软件

lvs:Linux Virtual Server

nginx:支持四层调度

haproxy:支持四层调度

ats:apache traffic server,yahoo捐助

perlbal:Perl 编写

pound


2.基于工作的协议层次划分:

传输层(通用):DPORT

LVS:

nginx:stream

haproxy:mode tcp

应用层(专用):针对特定协议,自定义的请求模型分类

proxy server:

http:nginx, httpd, haproxy(mode http), ...

fastcgi:nginx, httpd, ...

mysql:mysql-proxy, ...

负载均衡可以采用硬件设备,也可以采用软件负载。

商用硬件负载设备成本通常较高(一台几十万上百万很正常),所以在条件允许的情况下我们会采用软负载,而软负载解决的两个核心问题是:选谁、转发,其中最著名的是LVS(Linux Virtual Server),nginx,haproxy。今天讨论LVS。


LVS

1.工作原理:VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS,根据调度算法来挑选RS

2.LVS的组成:VS: Virtual Server,负责调度

RS: Real Server,负责真正提供服务

L4:四层路由器或交换机

3.lvs集群类型中的术语:

VS:Virtual Server, Director, Dispatcher(调度器),Load Balancer

RS:Real Server(lvs), upstream server(nginx),backend server(haproxy)

CIP:Client   IP

VIP: Virtual serve IP   VS外网的IP

DIP: Director IP    VS内网的IP

RIP: Real  server IP

4.LVS是四层负载均衡,也就是说建立在OSI模型的第四层——传输层之上,传输层上有我们熟悉的TCP/UDP,LVS支持TCP/UDP的负载均衡。

LVS的转发主要通过修改IP地址(NAT模式,分为源地址修改SNAT和目标地址修改DNAT)、修改目标MAC(DR模式)来实现。

5.访问流程:CIP <--> VIP == DIP <--> RIP


6.那么为什么LVS是在第四层做负载均衡?

首先LVS不像HAProxy等七层软负载面向的是HTTP包,所以七层负载可以做的URL解析等工作,LVS无法完成。 其次,某次用户访问是与服务端建立连接后交换数据包实现的,如果在第三层网络层做负载均衡,那么将失去「连接」的语义。软负载面向的对象应该是一个已经建 立连接的用户,而不是一个孤零零的IP包。后面会看到,实际上LVS的机器代替真实的服务器与用户通过TCP三次握手建立了连接,所以LVS是需要关心 「连接」级别的状态的。


7.lvs集群的类型:

lvs-nat:修改请求报文的目标IP,多目标IP的DNAT

lvs-dr:操纵封装新的MAC地址

lvs-tun:在原请求IP报文之外新加一个IP首部

lvs-fullnat:修改请求报文的源和目标IP

这里挑选常用的DR、NAT、Full-NAT来简单介绍一下。


1)、DR

请求由LVS接受,由真实提供服务的服务器(RealServer, RS)直接返回给用户,返回的时候不经过LVS。

DR模式下需要LVS和绑定同一个VIP(RS通过将VIP绑定在loopback实现)。

一个请求过来时,LVS只需要将网络帧的MAC地址修改为某一台RS的MAC,该包就会被转发到相应的RS处理,注意此时的源IP和目标IP都没变,LVS只是做了一下移花接木。

RS收到LVS转发来的包,链路层发现MAC是自己的,到上面的网络层,发现IP也是自己的,于是这个包被合法地接受,RS感知不到前面有LVS的存在。

而当RS返回响应时,只要直接向源IP(即用户的IP)返回即可,不再经过LVS。

LVS-DR:Direct Routing,直接路由,LVS默认模式,应用最广泛,通过为请求报文重新封装一个MAC首部进行转发,源MAC是DIP所在的接口的MAC,目标MAC是某挑选出的RS的RIP所在接口的MAC地址;源IP/PORT,以及目标IP/PORT均保持不变

Director和各RS都配置有VIP

(1) 确保前端路由器将目标IP为VIP的请求报文发往Director

在前端网关做静态绑定VIP和Director的MAC地址

在RS上使用arptables工具

arptables-A IN -d $VIP -j DROP

arptables-A OUT -s $VIP -j mangle --mangle-ip-s $RIP

在RS上修改内核参数以限制arp通告及应答级别

arp_announce

arp_ignore

(2) RS的RIP可以使用私网地址,也可以是公网地址;RIP与DIP在同一IP网络;RIP的网关不能指向DIP,以确保响应报文不会经由Director

(3) RS和Director要在同一个物理网络

(4) 请求报文要经由Director,但响应报文不经由Director,而由RS直接发往Client

(5) 不支持端口映射(端口不能修败)

(6) RS可使用大多数OS系统


VS/DR体系结构图(来自红帽教材)


2)NAT

NAT(Network Address Translation)是一种外网和内网地址映射的技术。

NAT模式下,网络报的进出都要经过LVS的处理。LVS需要作为RS的网关。

当包到达LVS时,LVS做目标地址转换(DNAT),将目标IP改为RS的IP。RS接收到包以后,仿佛是客户端直接发给它的一样。

RS处理完,返回响应时,源IP是RS IP,目标IP是客户端的IP。

这时RS的包通过网关(LVS)中转,LVS会做源地址转换(SNAT),将包的源地址改为VIP,这样,这个包对客户端看起来就仿佛是LVS直接返回给它的。客户端无法感知到后端RS的存在。

本质是多目标IP的DNAT,通过将请求报文中的目标地址和目标端口修改为某挑出的RS的RIP和PORT实现转发

(1)RIP和DIP必须在同一个IP网络,且应该使用私网地址;RS的网关要指向DIP

(2)请求报文和响应报文都必须经由Director转发,Director易于成为系统瓶颈

(3)支持端口映射,可修改请求报文的目标PORT

(4)VS必须是Linux系统,RS可以是任意OS系统

NAT模式IP包调度过程


NAT模式IP包调度过程图


3)Full-NAT(注意:此类型kernel默认不支持)

无论是DR还是NAT模式,不可避免的都有一个问题:LVS和RS必须在同一个VLAN下,否则LVS无法作为RS的网关。

这引发的两个问题是:

a、同一个VLAN的限制导致运维不方便,跨VLAN的RS无法接入。

b、LVS的水平扩展受到制约。当RS水平扩容时,总有一天其上的单点LVS会成为瓶颈。

Full-NAT由此而生,解决的是LVS和RS跨VLAN的问题,而跨VLAN问题解决后,LVS和RS不再存在VLAN上的从属关系,可以做到多个LVS对应多个RS,解决水平扩容的问题。

Full-NAT相比NAT的主要改进是,在SNAT/DNAT的基础上,加上另一种转换,转换过程如下:

在包从LVS转到RS的过程中,源地址从客户端IP被替换成了LVS的内网IP。

内网IP之间可以通过多个交换机跨VLAN通信。

当RS处理完接受到的包,返回时,会将这个包返回给LVS的内网IP,这一步也不受限于VLAN。

LVS收到包后,在NAT模式修改源地址的基础上,再把RS发来的包中的目标地址从LVS内网IP改为客户端的IP。

Full-NAT主要的思想是把网关和其下机器的通信,改为了普通的网络通信,从而解决了跨VLAN的问题。采用这种方式,LVS和RS的部署在VLAN上将不再有任何限制,大大提高了运维部署的便利性。

lvs-tun模式

lvs-tun:

转发方式:不修改请求报文的IP首部(源IP为CIP,目标IP为VIP),而在原IP报文之外再封装一个IP首部(源IP是DIP,目标IP是RIP),将报文发往挑选出的目标RS;RS直接响应给客户端(源IP是VIP,目标IP是CIP)

(1) DIP, VIP, RIP都应该是公网地址

(2) RS的网关不能,也不可能指向DIP

(3) 请求报文要经由Director,但响应不能经由Director

(4) 不支持端口映射

(5) RS的OS须支持隧道功能


LVS工作模式图


4)Session

客户端与服务端的通信,一次请求可能包含多个TCP包,LVS必须保证同一连接的TCP包,必须被转发到同一台RS,否则就乱套了。为了确保这一点,LVS内部维护着一个Session的Hash表,通过客户端的某些信息可以找到应该转发到哪一台RS上。

.

8.ipvs scheduler

根据其调度时是否考虑各RS当前的负载状态

两种:静态方法和动态方法

1)静态方法:仅根据算法本身进行调度

(1)、RR:roundrobin,轮询

(2)、WRR:Weighted RR,加权轮询

(3)、SH:Source Hashing,实现session sticky,源IP地址hash;将来自于同一个IP地址的请求始终发往第一次挑中的RS,从而实现会话绑定

(4)、DH:Destination Hashing;目标地址哈希,将发往同一个目标地址的请求始终转发至第一次挑中的RS,典型使用场景是正向代理缓存场景中的负载均衡,如:宽带运营商

2)动态方法:主要根据每RS当前的负载状态及调度算法进行调度Overhead=value较小的RS将被调度

(1)、LC:least connections 适用于长连接应用

Overhead=activeconns*256+inactiveconns

(2)、WLC:Weighted LC,默认调度方法

Overhead=(activeconns*256+inactiveconns)/weight

(3)、SED:Shortest Expection Delay,初始连接高权重优先

Overhead=(activeconns+1)*256/weight

(4)、NQ:Never Queue,第一轮均匀分配,后续SED

(5)、LBLC:Locality-Based LC,动态的DH算法,使用场景:根据负载状态实现正向代理

(6)、LBLCR:LBLC with Replication,带复制功能的LBLC

解决LBLC负载不均衡问题,从负载重的复制到负载轻的RS


9.ipvs集群:

管理集群服务

管理服务上的RS

LVS集群化

采用Full-NAT模式后,可以搭建LVS的集群,拓扑结构如下图:


容灾

容灾分为RS的容灾和LVS的容灾。

RS的容灾可以通过LVS定期健康检测实现,如果某台RS失去心跳,则认为其已经下线,不会在转发到该RS上。

LVS的容灾可以通过主备+心跳的方式实现。主LVS失去心跳后,备LVS可以作为热备立即替换。

容灾主要是靠KeepAlived来做的。


10.LVM管理工具命令

LVM作用于内核,所以要对集群进行管理要LVS命工具ipvsadm

ipvsadm:用户空间的命令行工具,规则管理器,程序包为ipvsadm

用于管理集群服务及RealServer

ipvs:工作于内核空间netfilter的INPUT钩子上的框架

1)ipadmin包:

Unit File: ipvsadm.service

主程序:/usr/sbin/ipvsadm

规则保存工具:/usr/sbin/ipvsadm-save

规则重载工具:/usr/sbin/ipvsadm-restore

配置文件:/etc/sysconfig/ipvsadm-config


2)ipvsadm命令

ipvsadm命令:

核心功能:

集群服务管理:增、删、改

集群服务的RS管理:增、删、改

查看

ipvsadm-A|E -t|u|fservice-address [-s scheduler] [-p [timeout]] [-M netmask] [--pepersistence_engine] [-b sched-flags]

ipvsadm-D -t|u|fservice-address 删除

ipvsadm –C 清空

ipvsadm –R 重载

ipvsadm -S [-n] 保存

ipvsadm-a|e-t|u|fservice-address -r server-address [options]

ipvsadm-d -t|u|fservice-address -r server-address

ipvsadm-L|l[options]

ipvsadm-Z [-t|u|fservice-address]


管理集群服务:增、改、删

增、改:

ipvsadm-A|E -t|u|fservice-address [-s scheduler] [-p [timeout]]

删除:

ipvsadm-D -t|u|fservice-address

service-address:

-t|u|f:

-t: TCP协议的端口,VIP:TCP_PORT

-u: TCP协议的端口,VIP:UDP_PORT

-f:firewall MARK,标记,一个数字

[-s scheduler]:指定集群的调度算法,默认为wlc

管理集群上的RS:增、改、删

增、改:ipvsadm-a|e-t|u|fservice-address -r server-address [-g|i|m] [-w weight]

删:ipvsadm-d -t|u|fservice-address -r server-address

server-address:

rip[:port]如省略port,不作端口映射

选项:

lvs类型:

-g: gateway, dr类型,默认

-i: ipip, tun类型

-m: masquerade, nat类型

-w weight:权重


清空定义的所有内容:ipvsadm–C

清空计数器:ipvsadm-Z [-t|u|fservice-address]

查看:ipvsadm-L|l[options]

--numeric, -n:以数字形式输出地址和端口号

--exact:扩展信息,精确值

--connection,-c:当前IPVS连接输出

--stats:统计信息

--rate :输出速率信息

ipvs规则:/proc/net/ip_vs

ipvs连接:/proc/net/ip_vs_conn


保存:建议保存至/etc/sysconfig/ipvsadm

ipvsadm-save > /PATH/TO/IPVSADM_FILE

ipvsadm-S > /PATH/TO/IPVSADM_FILE

systemctlstop ipvsadm.service

重载:

ipvsadm-restore < /PATH/FROM/IPVSADM_FILE

ipvsadm-R < /PATH/FROM/IPVSADM_FILE

systemctlrestart ipvsadm.service


负载均衡集群设计时要注意的问题

(1) 是否需要会话保持

(2) 是否需要共享存储

共享存储:NAS,SAN,DS(分布式存储)

数据同步:

lvs-nat:

设计要点:

(1) RIP与DIP在同一IP网络, RIP的网关要指向DIP

(2) 支持端口映射

(3) Director要打开核心转发功能


11.持久连接

session 绑定:对共享同一组RS的多个集群服务,需要统一进行绑定,lvssh算法无法实现

持久连接(lvspersistence )模板:实现无论使用任何调度算法,在一段时间内(默认360s ),能够实现将来自同一个地址的请求始终发往同一个RS

ipvsadm-A|E -t|u|fservice-address [-s scheduler] [-p [timeout]]

持久连接实现方式:

每端口持久(PPC):每个端口对应定义为一个集群服务,每集群服务单独调度

每防火墙标记持久(PFWMC):基于防火墙标记定义集群服务;可实现将多个端口上的应用统一调度,即所谓的port Affinity

每客户端持久(PCC):基于0端口(表示所有服务)定义集群服务,即将客户端对所有应用的请求都调度至后端主机,必须定义为持久模式



持久连接

session 绑定:对共享同一组RS的多个集群服务,需要统一进行绑定,lvssh算法无法实现

持久连接(lvspersistence )模板:实现无论使用任何调度算法,在一段时间内(默认360s ),能够实现将来自同一个地址的请求始终发往同一个RS

ipvsadm-A|E -t|u|fservice-address [-s scheduler] [-p [timeout]]

持久连接实现方式:

每端口持久(PPC):每个端口对应定义为一个集群服务,每集群服务单独调度

每防火墙标记持久(PFWMC):基于防火墙标记定义集群服务;可实现将多个端口上的应用统一调度,即所谓的port Affinity

每客户端持久(PCC):基于0端口(表示所有服务)定义集群服务,即将客户端对所有应用的请求都调度至后端主机,必须定义为持久模式



LVS高可用性

1 Director不可用,整个系统将不可用;SPoFSingle Point of Failure

解决方案:高可用

keepalivedheartbeat/corosync

2 某RS不可用时,Director依然会调度请求至此RS

解决方案:由Director对各RS健康状态进行检查,失败时禁用,成功时启用

keepalivedheartbeat/corosync, ldirectord

检测方式:

(a) 网络层检测,icmp

(b) 传输层检测,端口探测

(c) 应用层检测,请求某关键资源

RS全不用时:back server, sorry server

ldirectord:监控和控制LVS守护进程,可管理LVS规则

包名:ldirectord-3.9.6-0rc1.1.1.x86_64.rpm

文件:

/etc/ha.d/ldirectord.cf主配置文件

/usr/share/doc/ldirectord-3.9.6/ldirectord.cf 配置模版

/usr/lib/systemd/system/ldirectord.service 服务

/usr/sbin/ldirectord主程序

/var/log/ldirectord.log 日志

/var/run/ldirectord.ldirectord.pid pid文件

推荐阅读更多精彩内容