×

爬虫架构 | 消息队列应用场景及ActiveMQ、RabbitMQ、RocketMQ、Kafka对比

96
小怪聊职场 22d8d123 271c 4d80 9c59 6990844a9e37
2018.04.26 21:32* 字数 1996

前言:在之前的业务中,使用了Kafka和RabbitMQ两种消息队列,这篇文章来做一个总结。

消息队列中间件是分布式系统中重要的组件,主要实现异步消息,应用解耦,流量削峰及消息通讯等功能。
下面举例说明在实际应用中消息队列是如何使用的。

一、消息队列应用场景

1.1、异步处理

以用户注册,并且需要注册邮件和短信为例。
用户注册后,需要发送注册邮件和注册短信。传统的做法有两种:串行和并行方式。如下图所示:

串行和并行方式

1)串行方式:将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户端。
2)并行方式:将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成后,返回给客户端。与串行的差别是,并行的方式可以提高处理的时间。

假设三个业务节点每个使用50毫秒钟,不考虑网络等其他开销,则串行方式的时间是150毫秒,并行的时间可能是100毫秒。

因为CPU在单位时间内处理的请求数是一定的,假设CPU1秒内吞吐量是100次。则串行方式1秒内CPU可处理的请求量是7次(1000ms/150ms),并行方式处理的请求量是10次(1000ms/100ms)

小结:如以上案例描述,传统的方式系统的性能(并发量,吞吐量,响应时间)会有瓶颈。如何解决这个问题呢?

引入消息队列,将不是必须的业务逻辑,异步处理。改造后的架构如下:

引入消息队列方式

按照以上约定,用户的响应时间相当于是注册信息写入数据库的时间,也就是50毫秒。注册邮件,发送短信写入消息队列后,直接返回,因此写入消息队列的速度很快,基本可以忽略,因此用户的响应时间可能是50毫秒。因此架构改变后,系统的吞吐量提高到每秒20 QPS。比串行提高了3倍,比并行提高了两倍。

1.2、应用解耦

以用户下单购买业务为例。
用户下单后,订单系统需要通知库存系统。传统的做法是,订单系统调用库存系统的接口。如下图

应用耦和

传统模式的缺点:
1)假如库存系统无法访问,则订单减库存将失败,从而导致订单失败。
2)订单系统与库存系统耦合。

如何解决以上问题呢?引入应用消息队列后的方案,如下图:

应用解耦

1)订单系统:用户下单后,订单系统完成持久化处理,将消息写入消息队列,返回用户订单下单成功。
2)库存系统:订阅下单的消息,采用拉/推的方式,获取下单信息,库存系统根据下单信息,进行库存操作。

假如:在下单时库存系统不能正常使用。也不影响正常下单,因为下单后,订单系统写入消息队列就不再关心其他的后续操作了。实现订单系统与库存系统的应用解耦。

1.3、流量削峰

流量削峰也是消息队列中的常用场景,一般在秒杀或团抢活动中使用广泛。
秒杀活动,一般会因为流量过大,导致流量暴增,应用挂掉。为解决这个问题,需要在应用前端加入消息队列。
1)可以控制活动的人数。
2)可以缓解短时间内高流量压垮应用。

流量削峰

1)用户的请求,服务器接收后,首先写入消息队列。假如消息队列长度超过最大数量,则直接抛弃用户请求或跳转到错误页面。
2)秒杀业务根据消息队列中的请求信息,再做后续处理。

1.4、消息通讯

消息通讯是指,消息队列一般都内置了高效的通信机制,因此也可以用作消息通讯。比如实现点对点消息队列,或者聊天室等。

消息通讯

以上实际是消息队列的两种消息模式,点对点或发布订阅模式。

二、常用消息队列(ActiveMQ、RabbitMQ、RocketMQ、Kafka)比较

  • 生产者消费者模式(Producer-Consumer)
    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-支持,Kafka-支持。
  • 发布订阅模式(Publish-Subscribe)
    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-支持,Kafka-支持。
  • 请求回应模型(Request-Reply)
    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-不支持,Kafka-不支持。
  • API完备性
    ActiveMQ-高,RabbitMQ-高,RocketMQ-高,Kafka-高。
  • 多语言支持
    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-只支持JAVA,Kafka-支持。
  • 单机吞吐量
    ActiveMQ-万级,RabbitMQ-万级,RocketMQ-万级,Kafka-十万级。
  • 消息延迟
    ActiveMQ-无,RabbitMQ-微秒级,RocketMQ-毫秒级,Kafka-毫秒级。
  • 可用性
    ActiveMQ-高(主从),RabbitMQ-高(主从),RocketMQ-非常高(分布式),Kafka-非常高(分布式)。
  • 消息丢失
    ActiveMQ-低,RabbitMQ-低,RocketMQ-理论上不会丢失,Kafka-理论上不会丢失。
  • 文档的完备性
    ActiveMQ-高,RabbitMQ-高,RocketMQ-高,Kafka-高。
  • 提供快速入门
    ActiveMQ-有,RabbitMQ-有,RocketMQ-有,Kafka-有。
  • 社区活跃度
    ActiveMQ-高,RabbitMQ-高,RocketMQ-中,Kafka-高。
  • 商业支持
    ActiveMQ-无,RabbitMQ-无,RocketMQ-阿里云,Kafka-阿里云。

总体来说:

  • ActiveMQ
    历史悠久的开源项目,已经在很多产品中得到应用,实现了JMS1.1规范,可以和spring-jms轻松融合,实现了多种协议,不够轻巧(源代码比RocketMQ多),支持持久化到数据库,对队列数较多的情况支持不好。
  • RabbitMQ
    它比Kafka成熟,支持AMQP事务处理,在可靠性上,RabbitMQ超过Kafka,在性能方面超过ActiveMQ。
  • RocketMQ
    RocketMQ是阿里开源的消息中间件,目前在Apache孵化,使用纯Java开发,具有高吞吐量、高可用性、适合大规模分布式系统应用的特点。RocketMQ思路起源于Kafka,但并不是简单的复制,它对消息的可靠传输及事务性做了优化,目前在阿里集团被广泛应用于交易、充值、流计算、消息推送、日志流式处理、binglog分发等场景,支撑了阿里多次双十一活动。
    因为是阿里内部从实践到产品的产物,因此里面很多接口、API并不是很普遍适用。其可靠性毋庸置疑,而且与Kafka一脉相承(甚至更优),性能强劲,支持海量堆积。
  • Kafka
    Kafka设计的初衷就是处理日志的,不支持AMQP事务处理,可以看做是一个日志系统,针对性很强,所以它并没有具备一个成熟MQ应该具备的特性。Kafka的性能(吞吐量、tps)比RabbitMQ要强,如果用来做大数据量的快速处理是比RabbitMQ有优势的。
Python爬虫系列
Python爬虫系列
5.1万字 · 5.0万阅读 · 1040人关注
文章提到的所有代码将会逐步放到https://github.com/huangtao1208/scrapy_spider Python爬虫系列,未来将出书。
Web note ad 1