Kafka 处理器客户端介绍

【编者按】本文作者为 Bill Bejeck，主要介绍如何有效利用新的 Apache Kafka 客户端来满足数据处理需求。文章系国内 ITOM 管理平台 OneAPM 编译呈现，以下为正文。

如果你使用的系统需要传输大量数据，就算你没用过 Kafka，很有可能已经听说过它了。从较高层面来说，Kafka 是一个对错误零容忍、分布式的发布订阅信息系统，设计目的是提供高速服务及处理成千上万信息的能力。Kafka 提供多种应用，其中一种是实时处理。实时处理通常包括读取主题(源)的数据进行分析或转换工作，然后将结果写入另一个主题(sink)。目前要完成这些工作，你有以下两种备选：

通过 KafkaConsumer 使用自定义代码来读取数据，然后通过 KafkaProducer 写出数据。
使用发展成熟的流处理框架，例如 Spark Steaming、Flink 或者 Storm。

虽然两种方法都很好，在某些情况下，如果能有一个处于两种之间的方法就更好了。为此，《Kafka 改进方案》流程提出了一个处理器接口。处理器接口的目的是引入一个客户端，以便处理 Kafka 消耗的数据，并将结果写入 Kafka。该处理器客户端包括两个组成部分：

一个“低层级”的处理器，能够提供数据处理、组合处理和本地状态存储的接口
一个“高层级”的流 DSL，能够满足大部分处理执行需求。

接下来将会有一系列文章介绍新的 Kafka 处理器客户端，本文主要介绍“低层级”的处理器功能。在后续文章中，将会介绍“高层级”的 DSL 和涉及到其它技术的高级用例。如想了解处理器客户端的动机和目标的完整描述，请阅读《方案》原文。免责声明：本人与 Confluent 并无任何关系，仅仅是 Kafka 的一名热心用户。

处理器接口的潜在用例

在笔者看来，处理器接口是个有用工具的原因有以下几点：

在处理奇异值时需要发出通知或警报。换句话说，业务需求就是：你不需要建立模型或在其它被处理的数据语境中检查这个值。举个例子，当有人使用虚假信用卡时，你希望能立即收到通知。
在进行分析时筛选数据。理想状态下，筛选出中到高比例的数据应该重新分区，来避免数据倾斜问题。分区操作成本很高，因此通过筛选哪些数据要发送到你的分析群集，就可以省去筛选和重新分区步骤。
你只想对源数据的某一部分进行分析，同时把所有数据传输到另一个存储空间。

第一个处理器范例

在第一个处理器范例中，笔者要转化虚构的客户购买数据，并进行以下操作：

掩藏信用卡号的处理器。
用于收集客户名字和消费金额的处理器，这些信息将会用于一个奖励项目。
用于收集邮编和购买商品的处理器，这些信息可以帮助判断消费者的购物模式。

以下是处理器对象的简要介绍。三个处理器都继承了 AbstractProcessor 类，该类提供了punctuate 和 close 方法的空操作重写。在本范例中，只需要实现 process 方法，该行为就会执行到每条信息。任务完成后，将会调用 context().forward方法，它会将修改后的或者新的键值对转发给下游的消费者。（context() 方法会检索 init 方法在父类中预置的 context 实例变量）。然后， context().commit 方法被调用，提交包括信息偏移在内的流当前状态。

打造处理器图形

现在需要定义有向无环图（DAG）来决定信息的流向。这是关系到处理器接口是否会“出现偏差”的地方。要打造处理器节点图，需要用到拓扑构造器(ToplogyBuilder)。虽然笔者的信息属于 JSON，但还是需要定义序列化和反序列化实例，因为处理器按照类型来处理。下面是来自 PurchaseProcessorDriver的一部分代码，它们构成了图形拓扑、序列化程序和反序列化程序。

//Serializers for types used in the processors
JsonDeserializer<Purchase> purchaseJsonDeserializer = new JsonDeserializer<>(Purchase.class);
JsonSerializer<Purchase> purchaseJsonSerializer = new JsonSerializer<>();
JsonSerializer<RewardAccumulator> rewardAccumulatorJsonSerializer = new JsonSerializer<>();
JsonSerializer<PurchasePattern> purchasePatternJsonSerializer = new JsonSerializer<>();

StringDeserializer stringDeserializer = new StringDeserializer();
StringSerializer stringSerializer = new StringSerializer();

 TopologyBuilder topologyBuilder = new TopologyBuilder();
 topologyBuilder.addSource("SOURCE", stringDeserializer, purchaseJsonDeserializer, "src-topic")
    .addProcessor("PROCESS", CreditCardAnonymizer::new, "SOURCE")
    .addProcessor("PROCESS2", PurchasePatterns::new, "PROCESS")
    .addProcessor("PROCESS3", CustomerRewards::new, "PROCESS")
    .addSink("SINK", "patterns", stringSerializer, purchasePatternJsonSerializer, "PROCESS2")
    .addSink("SINK2", "rewards",stringSerializer, rewardAccumulatorJsonSerializer, "PROCESS3")
    .addSink("SINK3", "purchases", stringSerializer, purchaseJsonSerializer, "PROCESS");
//Use the topologyBuilder and streamingConfig to start the kafka streams process
KafkaStreams streaming = new KafkaStreams(topologyBuilder, streamingConfig);
streaming.start();

There’s several steps here, so let’s do a quick walkthrough

上面的代码涉及到几个步骤，以下是其简介：

在第11行有个源节点叫做“SOURCE”，一个用于键的 StringDeserializer 以及生成的 JsonSerializer 来处理 Purchase 对象，和供给源代码的1到N个主题。本范例中使用的是1个主题“src-topic”的输入信息。
接下来开始添加处理器节点。addProcessor 方法以一个 Strings 命名，一个 ProcessorSupplier，以及1到N个父节点。在本范例中，第一个处理器是“SOURCE”节点的孩子，同时又是后两个处理器的父亲。在这里需要注意 ProcessorSupplier 的句法。该代码在利用方法处理(method handles)，后者可以在 Java8中用作供应实例的 lambda 表达式。代码继续用同样的方式定义接下来的两个处理器。
最后添加 sink（输出主题）来完成信息通道。addSink 方法用到一个 String 名字、主题名字、键值序列化程序、值序列化程序和1到 N 个父节点。在3个 addSink 方法中，可以看到之前在代码中创建的 JSONDeserializer 对象。

下面是拓扑构造器(TopologyBuilder)的最终结果图示：

Kafka 处理器客户端介绍

状态处理器

处理器接口并不仅限于处理当前收到的值，还能维护集合、总和过程中使用的状态，或者连接将要收到的信息。为了充分利用状态处理功能，在创建处理拓扑时，使用 TopologyBuilder.addStateStore 方法创建一个 KeyValueStore。可以创建两种存储区：（1）内存式的；（2）利用堆外存储的 RocksDB 存储。选择哪个取决于值的有效时长。对于数量较多的动态值，RocksDB 比较适合，对于时效较短的词条，内存式更适合。在指定 String、Integer 或较长的键值和值时，Stores 类别提供序列化、反序列化实例。但是如果使用自定义类型的键值或值时，需要提供自定义的序列化程序和反序列化程序。

状态处理器范例

在本范例中，将会看到 process 方法和另外两个重写方法：init 和 punctuate。process 方法抽取股票代号，更新或创建交易信息，然后把汇总结果放入存储区。

在 init 方法中的操作有：

设置 ProcessorContext 引用。
用 ProcessorContext.schedule 方法，以便控制 punctuate 方法的执行频率。在本范例中频率为10秒1次。
给构建 TopologyBuilder（下文将会谈到）时创建的状态存储区设置一个引用。

punctuate 方法会迭代存储区内的所有值，并且一旦它们在过去11秒内更新，StockTransactionSummary 对象就会被发送给消费者。

利用状态存储区打造一个拓扑构造器

跟前面的例子一样，看处理器代码只完成了一半的工作。以下是部分源代码，创建了 TopologyBuilder，其中包括一个 KeyValueStore：

 TopologyBuilder builder = new TopologyBuilder();
 
 JsonSerializer<StockTransactionSummary> stockTxnSummarySerializer = new JsonSerializer<>();
 JsonDeserializer<StockTransactionSummary> stockTxnSummaryDeserializer = new JsonDeserializer<>(StockTransactionSummary.class);
 JsonDeserializer<StockTransaction> stockTxnDeserializer = new JsonDeserializer<>(StockTransaction.class);
 JsonSerializer<StockTransaction> stockTxnJsonSerializer = new JsonSerializer<>();
 StringSerializer stringSerializer = new StringSerializer();
 StringDeserializer stringDeserializer = new StringDeserializer();
 
 
 builder.addSource("stocks-source", stringDeserializer, stockTxnDeserializer, "stocks")
        .addProcessor("summary", StockSummary::new, "stocks-source")
        .addStateStore(Stores.create("stock-transactions").withStringKeys()
                .withValues(stockTxnSummarySerializer,stockTxnSummaryDeserializer).inMemory().maxEntries(100).build(),"summary")
        .addSink("sink", "stocks-out", stringSerializer,stockTxnJsonSerializer,"stocks-source")
        .addSink("sink-2", "transaction-summary", stringSerializer, stockTxnSummarySerializer, "summary");
 
 
 System.out.println("Starting KafkaStreaming");
 KafkaStreams streaming = new KafkaStreams(builder, streamingConfig);
 streaming.start();
 System.out.println("Now started");

这段代码在创建序列化、非序列化和拓扑构造器方面并无不同。但是有一点不同。第13、14行创建了一个内存存储区（命名为“summary”），供处理器使用。传到 Stores.create 方法的名字跟前面在处理器 init 方法中用来重写存储区的名字一样。在指定键值时，可以使用便捷的 Stores.withStringKeys() 方法，因为 Strings 本来就是它支持的类型，不需要提供参数。但是因为使用了类型化的值，所以使用了 withValues 方法，并提供了序列化和非序列化实例。

用范例代码运行处理器

本文所示范例可与实时 Kafka 群集进行对比。指导说明参见本文的 github 资源库。

结论

目前为止，笔者已经介绍了 Kafka 处理器接口的“低层级”部分。希望能让大家领略到这个新接口能够给 Kafka 的新老用户带来的实用性和多样性。在下一篇文章中，笔者将会介绍“高层级”的 DSL 接口，以及连接、时窗功能等问题。最后要强调的一点，就是处理器接口和 Kafka 流还在继续开发中，很快将会有更新。

本文系 OneAPM 工程师整理呈现。OneAPM 能为您提供端到端的应用性能解决方案，我们支持所有常见的框架及应用服务器，助您快速发现系统瓶颈，定位异常根本原因。分钟级部署，即刻体验，性能监控从来没有如此简单。想阅读更多技术文章，请访问 OneAPM 官方技术博客。

本文转自 OneAPM 官方博客

原文地址：https://dzone.com/articles/introducing-the-kafka-processor-client

最后编辑于：2017.12.03 06:09:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,015评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,262评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,727评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,986评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,363评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,610评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,871评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,582评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,297评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,551评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,053评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,385评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,035评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,079评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,841评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,648评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,550评论 2赞 270

Kafka 处理器客户端介绍

处理器接口的潜在用例

第一个处理器范例

打造处理器图形

状态处理器

状态处理器范例

利用状态存储区打造一个拓扑构造器

用范例代码运行处理器

结论

推荐阅读更多精彩内容