Mysql+Debezium+kafka+Flink 写入MySQL 实时数据

本次使用版本
kafka_2.12-2.70
Apache-Flink 1.12
Debezium 1.3
环境均为本地启动.提前下好各种应用包.

本文中涉及到的{kafka_2.12-2.7.0}以及{flink-1.12.0} 均为文件放置的路径地址

前提需要开启MySQL bin_log 日志 关于如何开启请自行搜索.

  • 首先启动zookeeper
    执行命令: ${kafka_2.12-2.7.0}% bin/zookeeper-server-start.sh config/zookeeper.propertieszookeeper.properties
    在启动kafka
    执行命令:${kafka_2.12-2.7.0}% bin/kafka-server-start.sh config/server.properties
  • 官网下载Debezium debezium-connector-mysql-1.3.1.Final-plugin.tar 将解压的包放置${kafka_2.12-2.7.0}/lib 以及自定义一个 /Users/XXX/connect
    修改 ${kafka_2.12-2.7.0} % vi config/connect-distributed.propertieskafka
    将最后一项取消注释加入:
    plugin.path=/Users/XXX/connect
    执行:${kafka_2.12-2.7.0} % bin/connect-distributed.sh config/connect-distributed.properties
    启动kafka connect
    以上步骤正常后
    创建一个topic连接器
    指令:
${kafka_2.12-2.7.0} % bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic b2c_flink

查看kafka topic

${kafka_2.12-2.7.0} % bin/kafka-topics.sh --list --zookeeper localhost:2181

删除为记录与本次操作无关...
删除kafka topic

${kafka_2.12-2.7.0} % bin/kafka-topics.sh --delete --zookeeper localhost:2181 --topic b2c_flink

使用curl 进行测试连接器
curl -H "Accept:application/json" localhost:8083/
会有一个json返回结果

{
"version": "2.7.0",
"commit": "448719dc99a19793",
"kafka_cluster_id": "p-c8Qz4STr2C2LRzy-xB0g"
}

接着发送一个POST请求 让连接器

curl -i -X POST -H "Accept:application/json" -H "Content-Type:application/json" localhost:8083/connectors -d '{ "name": "connector_demo", "config": { "connector.class": "io.debezium.connector.mysql.MySqlConnector", "tasks.max": "1", "database.hostname": "localhost", "database.port": "3306", "database.user": "root", "database.password": "123456", "database.server.id": "184054", "database.server.name": "big_data", "database.include.list": "big_data", "database.history.kafka.bootstrap.servers": "localhost:9092", "database.history.kafka.topic": "b2c_flink","include.schema.changes": "true"} }'

JSON 内容

{
    "name":"connector_demo", #连接器名称 唯一别重复
    "config":{
        "connector.class":"io.debezium.connector.mysql.MySqlConnector", # 使用到的类 参照官网
        "tasks.max":"1",
        "database.hostname":"localhost", # 数据库连接地址
        "database.port":"3306", # 端口
        "database.user":"root", #用户名
        "database.password":"123456", # 密码
        "database.server.id":"184054", # 连接器服务唯一id
        "database.server.name":"big_data", # 连接器名称 后续会出现在kafka中topic内
        "database.include.list":"big_data", # 包含的库列表
        "database.history.kafka.bootstrap.servers":"localhost:9092", 
        "database.history.kafka.topic":"b2c_flink", # topic名称
        "include.schema.changes":"true"
    }
}

发送完curl后会收到一个json返回值

HTTP/1.1 201 Created
Date: Thu, 31 Dec 2020 04:54:13 GMT
Location: http://localhost:8083/connectors/connector_demo
Content-Type: application/json
Content-Length: 507
Server: Jetty(9.4.33.v20201020)

也可以通过

curl -H "Accept:application/json" localhost:8083/connectors/  #查看所有连接器
curl -i -X DELETE -H "Accept:application/json" localhost:8083/connectors/connector_demo
#读取连接器对应内容 connnecotrs/XXXX为json配置内容中的name
curl -i -X DELETE -H "Accept:application/json" localhost:8083/connectors/connector_demo #删除对应连接器

完成以上后均已可以通过Debezium去读取MySQL中变化数据
可以使用kafka kafka-console-consumer.sh进行消费数据
指令为:

${kafka_2.12-2.7.0} % bin/kafka-console-producer.sh --broker-list localhost:9092 --topic b2c_flink  

但是读取到后发现内容太多.
这个时候在查询一次kafka内的topic会发现多出很多topic
本次本地mysql创建的库为big_data 设置的连接器名称也为big_data.
查询topic后出现

b2c_flink
big_data
big_data.big_data.save_result
big_data.big_data.test_result

列内的big_data.big_data.save_result 以及test_result为本次所需使用到的表
接着到了本次重头Flink
首先启动Flink集群(还为本地)

${flink-1.12.0} $ bin/start-cluster.sh

查看端口localhost:8081 是否能看见Dashboard 能看见即可
因为考虑到任务多..已提前修改过

vi conf/flink-conf.yaml
其中的
taskmanager.numberOfTaskSlots: 4
parallelism.default: 1

Flink所需要用到的jar包: flink-sql-connector-kafka_2.11-1.12.0.jar mysql-connector-java-5.1.30.jar flink-connector-jdbc_2.12-1.12.0.jar
以上jar包均为从官方地址下载
接着执行

${flink-1.12.0} $ bin/sql-client.sh embedded

使用到的SQL

CREATE TABLE test_result (
  id BIGINT,
  test_result STRING
) WITH (
 'connector' = 'kafka',
 'topic' = 'big_data.big_data.test_result', #因Debezium创建出的topic 
 'properties.bootstrap.servers' = 'localhost:9092',
 'properties.group.id' = 'testGroup',
 'format' = 'debezium-json', # 采用到Flink 内的转换
 'debezium-json.schema-include' = 'true' 
)

# 目标表 直接存入mysql中
CREATE TABLE save_result(
    id BIGINT,
    test_result STRING,
    PRIMARY KEY (id) NOT ENFORCED  #因主键问题需要设置否则会报错
) WITH (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://localhost:3306/big_data', #本地数据库
    'username' = 'root',
    'password' = '123456',
    'table-name' = 'save_result'
)

创建完毕连接后直接输入

SQL>insert into save_result 
SQL>select * from test_result;

这时可以在Flink Dashboard看到启动了一个running 任务
在原表中insert update 以及 delete数据后查看目标表均可以发现已实时将数据添加或删除.
至此一个实时数据均已使用了
倒腾了一天的东西终于出结果了...不容易啊..期间各种报错各种找包...
后续研究如何跟Oracle连接以及实时.在进行更新

推荐阅读更多精彩内容