kafka学习(1) 初识kafka

Kafka介绍

Kafka是LinkedIn采用scala开发的一个多分区, 多副本并且基于ZooKeeper协调的分布式消息系统, 定位是一个分布式流处理平台
Kafka的主要特点和扮演角色
(1) 消息系统: 消息中间件, 将上下游解耦, 削峰, 缓冲, 把同步的直接调用转换成异步的间接推送,中间通过一个队列在一端承接瞬时的流量洪峰,在另一端平滑地将消息推送出去
(2) 系统存储: kafka将数据存储到磁盘
(3) 流处理平台: Kafka为其他流处理平台提供数据来源,还提供了一个完整的流式处理类库,如窗口,链接,变换,聚合等

基本概念

Kafka体系架构包括若干Producer, 若干Broker, 若干Consumer, 以及一个ZooKeeper集群
(1) ZooKeeper负责管理集群元数据, 控制器选举等操作
(2) Producer将消息发送到Broker
(3) Broker负责把消息存储到磁盘
(4) Consumer负责从Broker订阅并消费消息


kafka体系架构.png

Producer

生产者,将消息发送到kafka 的Broker

Broker

服务代理节点,可以看作一个独立的kafka服务节点,或者kafka服务器,将消息存储到磁盘,一个或多个Broker节点组成kafka集群

Consumer

消费者,连接到kafka,从Broker订阅并消费消息,进行业务逻辑处理

Topic

kafka中消息以主题为单位进行归类,生产者把消息发送到特定的主题,每一条消息都要指定一个主题,消费者订阅主题

Partition:

1.一个主题可以有多个分区,一个分区只属于单个主题, 所以也称作主题分区
2.同一个主题下不同分区的包含的消息不同, 每个分区可以追加消息到尾部, 每个分区会分配一个offset作为消息在分区中的唯一标识, 相当于索引, Kafka保证每个分区内消息有序

  1. 分区可以分布在不同kafka服务器上(broker), 一个主题可以横跨多个broker
  2. 消息被发送到broker之后, 会根据分区规则选择存储在哪个分区,如果分区设计得合理所有消息都可以均匀分布在不同的分区上.每一个分区在物理上对应一个文件夹

Replica:

1.多副本机制提高容灾能力, 同一分区的不同副本中保存的是相同信息
2.副本之间是一主多从的关系,分别是leader和follower,当leader副本出现故障额时候从follower副本中选举新的leader

  1. 生产者和消费者只与leader副本进行交互, follower只负责与leader同步,follower副本中的消息相对于leader副本有一定的滞后性
  2. 由于副本处在不同的broker中,当某个broker失效时仍然能够保证服务可用
多副本架构.png

一共有4个broker,某个主题有3个分区p1,p2,p3,每个分区有3个副本,其中一个leader副本和2个follower副本
其中kafka的消费者也有容灾能力,采用拉的方式从服务端拉去消息,并且保存消费的具体位置,如果消费者宕机会根据之前的位置重新拉取消息进行消费

AR,ISR,OSR:

  1. 分区中所有副本统称为AR
  2. 所有与leader副本保持一定程度同步的副本组成ISR
  3. ISR集合是AR集合的子集, 消息会先发送到leader副本,然后follower副本从leader副本中拉去消息进行同步
  4. 与leader副本同步滞后过多的样本重组成OSR,AR=ISR+OSR
  5. 正常情况下所有follower副本都应该与leader副本保持同步,OSR集合为空
  6. leader副本负责跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或失效时,leader副本会把它从ISR集合中去除移动到OSR,如果OSR集合中有副本追上了leader副本,那么leader副本会把它从OSR集合转移到ISR集合
  7. 当leader副本发生故障时,只有ISR集合中的副本有机会被选举为leader

HW和LEO

1.HW是高水位的意思,是一个偏移量offset,消费者只能拉取到这个offset之前的消息
2.HW的作用是保证了所有Broker上面某个唯一偏移量之前的消息是一样,使得消息不立即被消费者消费掉,防止信息丢失

  1. LEO是当前日志文件中下一条待写入的消息的offset
写入消息1.png

某分区有三个副本,一个leader两个follower,有消息3和4准备写入leader,再和follower同步

写入消息2.png

消息3和消息4写入了leader副本后,follower1金额follower2开始拉取消息3和4进行同步

写入消息3.png

在同步过程中不同follower的同步效率不一样,某一时刻follow1完全跟上了leader,follower2只同步了消息3,此时leader副本的LEO是5,follower1副本的LEO是5,follower2副本的LEO是4,因此HW取最小值LEO是4, 此时消费者只能消费0-3之间的消息

写入消息4.png

所有副本都成功写入了消息3和消息4,整个分区的HW是5, 因此消费者可以收到offset为4的消息

kafka命令测试

# 查看主题
# -zookeeper 指定了kafka连接的zookeeper服务地址
kafka-topics -list -zookeeper cloudera01:2181/kafka

# 创建一个topic,指定一个分区一个副本
kafka-topics -create -zookeeper cloudera01:2181/kafka -replication-factor 1 -partitions 1 -topic test_gp

# 通过describe查看更多信息
kafka-topics -describe -zookeeper cloudera01:2181/kafka -topic test_gp
#Topic:pira_raw_data    PartitionCount:3    ReplicationFactor:1 Configs:
#   Topic: pira_raw_data    Partition: 0    Leader: 79  Replicas: 79    Isr: 79
#   Topic: pira_raw_data    Partition: 1    Leader: 77  Replicas: 77    Isr: 77
#   Topic: pira_raw_data    Partition: 2    Leader: 78  Replicas: 78    Isr: 78
# Partition是topic的分区数,消息中的不同数据存放在不同分区;
# Replicas是副本存放的机器broker.id;
# Leader是消息的主存放位置;
# Isr跟Replicas相同则消息已经存放复制完成,如果不同说明还在存放复制中。

kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp -from-beginning
kafka-console-producer --broker-list cloudera01:9092 --topic test_gp

# 打开一个shell终端来订阅topic的消息
# bootstrap-server 指定了连接kafka集群的地址
# 表示从 latest 位移位置开始消费该主题的所有分区消息,即仅消费正在写入的消息
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp
# 表示从指定主题中有效的起始位移位置开始消费所有分区的消息。
kafka-console-consumer -bootstrap-server cloudera01:9092 -topic test_gp -from-beginning

# 打开一个shell终端用生产者发送消息给主题
kafka-console-producer --broker-list cloudera01:9092 --topic test_gp

kafka java客户端测试

配置maven依赖

<dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>2.0.0</version>
        </dependency>

编写kafka生产者,往kafka的test_gp主题写数据

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Properties;

public class ProducerFastStart {
    public static final String brokerList = "192.168.61.97:9092";  // kafka集群地址
    public static final String topic = "test_gp";  // 主题

    public static void main(String[] args) {
        Properties properties = new Properties();
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("bootstrap.servers", brokerList);

        KafkaProducer<String, String> producer = new KafkaProducer<String, String>(properties);
        ProducerRecord<String, String> record = new ProducerRecord<String, String>(topic, "hello Kafka");

        try {
            producer.send(record);
            System.out.println("消息发送成功");

        } catch (Exception e) {
            e.printStackTrace();
        }
        producer.close();
    }
}

编写kafka消费者,订阅主题test_gp数据

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.time.Duration;
import java.util.Collections;
import java.util.Properties;

public class ConsumerFastStart {
    public static final String brokerList = "192.168.61.97:9092";
    public static final String topic = "test_gp";
    public static final String groupID = "group.gp";  // 设置消费组的名称

    public static void main(String[] args) {
        Properties properties = new Properties();
        properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("bootstrap.servers", brokerList);
        properties.put("group.id", groupID);

        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(properties);
        consumer.subscribe(Collections.singletonList(topic));
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(1000));  // 1秒时间间隔轮询
            for (ConsumerRecord<String, String> record : records) {
                System.out.println(record.value());
            }
        }
    }
}

kafka服务端配置

broker configs大部分情况下不要更改, 主要用来有针对性的调优
参数的配置位置在kafka目录下的config/server.properties

zookeeper.connect
broker要连接的Zookeeper地址,必填没有默认值,可以配置为localhost:2181,如果zookeeper有多个节点,可以用逗号隔开
zookeeper.connect=cloudera01:2181,cloudera02:2181,cloudera03:2181/kafka
最佳的实践是加入一个chroot路径,这样可以明确指定chroot裤脚下的节点是Kafka所用,如果不指定chroot默认是zookeeper的根路径

listeners
该参数指定broker监听客户端链接的地址列表,由主机名:端口组成的列表,如果不指定主机名,则表示绑定默认网卡

broker.id
kafka集群中broker的唯一标识,默认是-1

log.dir和log.dirs
kafka把所有的消息都保存到磁盘上,这两个目录用来存放kafka日志文件, log.dirs的优先级比log.dir高, 默认是/tmp/kafka-logs

message.max.bytes
该参数指定broker所能接受的消息的最大值,默认1000012B就是976.6KB,如果生产者发送的消息大于这个值就会抛出异常

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,706评论 4 366
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,002评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,462评论 0 250
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,375评论 0 216
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,763评论 3 294
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,849评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,033评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,768评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,490评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,734评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,204评论 1 264
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,566评论 3 260
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,227评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,137评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,934评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,926评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,774评论 2 274