kafka相关概念及应用实战(Python代码)

什么是kafka

  • Apache Kafka是一个分布式的流处理平台,由Scala写成,并由Apache软件基金会开发的一个开源消息系统项目,该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。
  • Kafka是一个分布式消息中间件。

kafka的整体架构和主要概念

kafka架构.png
  • Producer, 向队列中发送消息。Produce负责选择将一条记录添加到topic中的某个partition中。

  • Consumer,从队列中消费消息。每个Consumer都要有一个Consumer group。

  • Broker,每一个kafka实例就是一个broker,一个broker可以有多个topic。

  • topic,用于分类消息。topic其本质是一个目录,可将同一主题消息归类到同一个目录。生产者向topic中写入数据时的详情如下:


    log_anatomy.png
  • partition:一个topic可以有1到n个分区,可以在创建topic时,指定topic的分区数,单机版的kafka的topic默认只有一个分区。每个分区中的消息的顺序是有序、且不可改变的。

  • offset:分区中的每条消息被标上一个有序的数字,这个数字就是offset。offset可以用来标识每条消息的位置。


    offset
  • consumer group, 多个Consumer组成的一个分组,应用可以并发的消费一个topic下多个分区中的消息,并发的消费者数量由topic的分区数决定。如下图的topic中包含的4个分区,被Consumer Group A和Consumner GroupB同时消费。同一组中多个Consumer之间是竞争关系,共享一个offset,一条消息被一个Consumer消费之后就不能再被另一个Consumer消费。不同组的Consumer之间,各自有自己的offset,假设GroupA此时的offset为10,而GroupB的offset可能是5,二者之间不相互影响。

consumer-groups

对于同一个topic,同一组的Consumer同时消费,可以实现负载均衡,不同组的Consumer,可以实现对消息的重复消费。

  • high-level API和low-level API。Kafka提供了一个high-level的Consumer API,它可以实现consumer group和自动容错,但是不能支持一些更复杂的使用场景,同也提供了一套simple的low-level API的Consumer API,提供更全面、更细粒度的控制,但是这种Consumer需要开发者自己设计容错机制。

Kafka Python实践

kafka的python包主要有kafka(pip install kafka)和kafka-python(pip install kafka-python)两种,建议使用kafka-python,kafka-python的API更丰富一些,下面的实践代码基于kafka-python。

1 简单的生产和消费

本文中servers的地址为:

servers = ['192.168.2.152:9092', '192.168.2.153:9092', '192.168.2.154:9092']

生产者

from kafka import KafkaProducer
def producer_message():
    producer = KafkaProducer(bootstrap_servers=servers)
    for i in range(100):
        msg = "some_message_bytes " + str(i)
        producer.send('kafka-topic', bytes(msg.encode("utf-8")))
        print(msg)

消费者

from kafka import KafkaConsumer
from kafka import TopicPartition

# 消费方式1,默认消费所有分区的消息
def consumer_message1():
    consumer = KafkaConsumer('kafka-topic', 
                             ootstrap_servers=servers, 
                             group_id="kafka-group-id")
    # consumer = KafkaConsumer('kafka-topic', bootstrap_servers=servers)
    for msg in consumer:
        print(msg)

# 消费方式2, 指定消费分区
def consumer_message2():
    consumer = KafkaConsumer(bootstrap_servers=servers, 
                             group_id="kafka-group-id")
    consumer.assign([TopicPartition('kafka-topic', 0)])
    for msg in consumer:
        print(msg)

# 消费方式3,手动commit,生产中建议使用这种方式
def consumer_message3():
    consumer = KafkaConsumer(bootstrap_servers=servers,
                             consumer_timeout_ms=1000,
                             group_id="kafka-group-id",
                             enable_auto_commit=False)
    consumer.assign([TopicPartition('kafka-topic', 0)])
    for msg in consumer:
        print(msg)
        consumer.commit()

2 简单的管理接口

获取所有的topic

kafka-python获取所有的topic接口是在KafkaConsumer类中实现的。笔者觉得这个方法放到KafkaAdminClient中可能更合适。

from kafka import KafkaConsumer

# 获取topic列表以及topic的分区列表
def retrieve_topics():
    consumer = KafkaConsumer(bootstrap_servers=servers)
    print(consumer.topics())

# 获取topic的分区列表
def retrieve_partitions(topic):
    consumer = KafkaConsumer(bootstrap_servers=servers)
    print(consumer.partitions_for_topic(topic))

# 获取Consumer Group对应的分区的当前偏移量
def retrieve_partition_offset():
    consumer = KafkaConsumer(bootstrap_servers=servers,
                             group_id='kafka-group-id')
    tp = TopicPartition('kafka-topic', 0)
    consumer.assign([tp])
    print("starting offset is ", consumer.position(tp))

创建、删除topic

from kafka import KafkaAdminClient
from kafka.admin import NewTopic
from kafka.errors import TopicAlreadyExistsError

admin = KafkaAdminClient(bootstrap_servers=servers)

# 创建topic
def create_topic():
    try:
        new_topic = NewTopic("create-topic", 8, 3)
        admin.create_topics([new_topic])
    except TopicAlreadyExistsError as e:
        print(e.message)

# 删除topic
def delete_topic():
    admin.delete_topics(["create-topic"])

获取消费组信息

from kafka import KafkaAdminClient

admin = KafkaAdminClient(bootstrap_servers=servers)
# 获取消费组信息    
def get_consumer_group():
    # 显示所有的消费组
    print(admin.list_consumer_groups())

    # 显示消费组的offsets
    print(admin.list_consumer_group_offsets("kafka-group-id"))

获取topic配置信息

from kafka import KafkaAdminClient
from kafka.admin import ConfigResource, ConfigResourceType

admin = KafkaAdminClient(bootstrap_servers=servers)
# 获取topic的配置信息
def get_topic_config():
    resource_config = ConfigResource(ConfigResourceType.TOPIC, "create-topic")
    config_entries = admin.describe_configs([resource_config])
    print(config_entries.resources)

kafka-python KafkaAdminClient中的bug

kafka-python包中的kafka\admin\client.py的第335行,

for topic, error_code in getattr(response, "topic_errors", response.topic_error_codes):

修改为

for topic, error_code, *a in getattr(response, "topic_errors", response.topic_error_codes):
image.png

总结

  • 对于同一个topic,不同组之间的Consumer各自维持一个offset,同一组内的Consumer公用同一个offset。
  • 当一个topic需要被不同的应用消费时,这些应用应设置不同的group_id,从而各自维持一个自己的offset。
  • 若组内有多个Consumer并发消费,最好创建topic时指定topic的分区数量,topic的分区数量决定了同时能有多少个Consumer并发消费。

参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容