使用EMR-Kafka Connect进行数据迁移

2019-07-22 13938

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移。

1.背景

流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。

Kafka Connect是一种可扩展的、可靠的，用于在Kafka和其他系统之间快速地进行流式数据传输的工具。例如可以使用Kafka Connect获取数据库的binglog数据，将数据库的数据迁入Kafka集群，以同步数据库的数据，或者对接下游的流式处理系统。同时，Kafka Connect提供的REST API接口可以方便的进行Kafka Connect的创建和管理。
Kafka Connect分为standalone和distributed两种运行模式。standalone模式下，所有的worker都在一个进程中运行；相比之下，distributed模式更具扩展性和容错性，是最常用的方式，也是生产环境推荐使用的模式。

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移，使用distributed模式。

2.环境准备

创建两个EMR集群，集群类型为Kafka。EMR Kafka Connect安装在task节点上，进行数据迁移的目的Kafka集群需要创建task节点。集群创建好后，task节点上EMR Kafka Connect服务会默认启动，端口号为8083。

注意要保证两个集群的网路互通，详细的创建流程见创建集群。

3.数据迁移

3.1准备工作

EMR Kafka Connect的配置文件路径为/etc/ecm/kafka-conf/connect-distributed.properties，可以查看所有的配置。修改配置项请参考组件参数配置。

在源Kafka集群创建需要同步的topic，例如

另外，Kafka Connect会将offsets, configs和任务状态保存在topic中，topic名对应配置文件中的offset.storage.topic、config.storage.topic 和status.storage.topic三个配置项。默认的，Kafka Connect会自动的使用默认的partition和replication factor创建这三个topic。

3.2创建Kafka Connect

在目的Kafka集群的task节点(例如emr-worker-3节点)，使用curl命令通过json数据创建一个Kafka Connect。

curl -X POST -H "Content-Type: application/json" --data '{"name": "connect-test", "config": { "connector.class": "EMRReplicatorSourceConnector", "key.converter": "org.apache.kafka.connect.converters.ByteArrayConverter", "value.converter": "org.apache.kafka.connect.converters.ByteArrayConverter", "src.kafka.bootstrap.servers": "${src-kafka-ip}:9092", "src.zookeeper.connect": "${src-kafka-curator-ip}:2181", "dest.zookeeper.connect": "${dest-kafka-curator-ip}:2181", "topic.whitelist": "${source-topic}", "topic.rename.format": "${dest-topic}", "src.kafka.max.poll.records": "300" } }' http://emr-worker-3:8083/connectors

json数据中，name字段代表创建的connect的名称，此处为connect-test；config字段需要根据实际情况进行配置，其中的变量说明如下表

字段	说明
topic.whitelist	源Kafka集群中需要同步的topic，多个topic用逗号隔开，例如connect
topic.rename.format	可选配置项，目的Kafka集群中同步后的topic，默认值为${topic.whitelist}.replica。例如源topic为connect，同步后的topic为connect.replica
src.kafka.bootstrap.servers	源Kafka集群broker地址
src.zookeeper.connect	源Kafka集群安装了zookeeper服务的节点内网IP
dest.zookeeper.connect	目的Kafka集群安装了zookeeper服务的节点内网IP