FlinkX—批流统一的高效数据同步插件

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 什么是FlinkX?FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾)。

什么是FlinkX?

FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾)。并于今年6年份,完成批流统一,离线计算与流计算的数据同步任务都可基于FlinkX实现。

FlinkX将不同的数据源库抽象成不同的Reader插件,目标库抽象成不同的Writer插件,具有以下特点:

基于Flink开发,支持分布式运行;
双向读写,某数据库既可以作为源库,也可以作为目标库;
支持多种异构数据源,可实现MySQL、Oracle、SQLServer、Hive、Hbase等近20种数据源的双向采集。
高扩展性,强灵活性,新扩展的数据源可与现有数据源可即时互通。
 
f1

FlinkX应用场景

FllikX数据同步插件主要应用于大数据开发平台的数据同步/数据集成模块,通常采用将底层高效的同步插件和界面化的配置方式相结合的方式,使大数据开发人员可简洁、快速的完成数据同步任务开发。实现将业务数据库的数据同步至大数据存储平台,从而进行数据建模开发,以及数据开发完成后,将大数据处理好的结果数据同步至业务的应用数据库,供企业数据业务使用。

FlinkX工作原理详解

FlinkX基于Flink实现,其选型及优势详见https://mp.weixin.qq.com/s/uQbGLY3_cj0h2H_PZZFRGw。FlinkX数据同步任务的本质是一个Flink程序,读出写入的数据同步任务会被翻译成StreamGraph在Flink执行,FlinkX开发者只需要关注InputFormat和OutputFormat接口实现即可。工作原理如下:

f2

Engine是袋鼠云封装的任务调度引擎,WEB端配置好的数据同步任务首先会提交至任务调度引擎,Template模块根据同步任务的配置信息加载源数据库和目标数据库对应的Reader和 Writer插件,Reader插件实现InputFormat接口,从数据库获取DataStream对象,Writer插件实现OutFormat接口,将目标数据库与DataStream对象相关联,从而通过DataStream对象将读出写入串接在一起,组装成一个Flink任务提交至Flink集群上进行运行。

之前基于Flink的分片、累加器特性,解决了数据同步过程中的增量同步、多通道控制、脏数据管理与错误管理等场景。最近半年基于Flink的checkpoint机制,实现了断点续传、流数据续跑等功能,来了解一下它的新特性吧。

(1)断点续传

数据同步过程中,假如一个任务要同步500G的数据到目标库,已经跑了15min,但到400G的时候由于集群资源不够、网络等因素数据同步失败了,若需要重头跑此任务,想必该同学要抓狂了。FlinkX基于checkpoin机制可支持断点续传,当同步任务由于上述原因失败时,不需要重跑任务,只需从断点继续同步,节省重跑时间和集群资源。

Flink的Checkpoint功能是其实现容错的核心功能,它能够根据配置周期性地对任务中的Operator/task的状态生成快照,将这些状态数据定期持久化存储下来,当Flink程序一旦意外崩溃时,重新运行程序时可以有选择地从这些快照进行恢复,从而修正因为故障带来的程序数据异常。

并且断点续传可和任务失败重试机制配合,即当任务执行失败,系统会自动进行重试,若重试成功则系统会接着断点位置继续同步,从而减少人为运维。

(2)实时采集与续跑

今年6月份,袋鼠云数栈研发团队基于FlinkX实现批流数据采集统一,可对MySQL Binlog、Filebeats、Kafka等数据源进行实时采集,并可写入Kafka、Hive、HDFS、Greenplum等数据源,采集任务也支持作业并发数与作业速率的限制,以及脏数据管理。并基于checkpint机制,可实现实时采集任务的续跑。当产生业务数据或Flink程序引起的采集进程中断时,可基于Flink定期存储的快照,对流数据的读取节点进行保存,从而在进行故障修复时,可选择历史保存的数据断点进行续跑操作,保证数据的完整性。此功能在袋鼠云的StreamWorks产品中实现,欢迎大家了解。

(3)流数据的脏数据管理

之前在BatchWorks离线计算产品中,已实现离线数据同步的脏数据管理,并基于Flink的累加器实现脏数据的错误管理,当错误量达到配置时,置任务失败。目前流数据实时采集也支持了此功能,即在将源库数据写入目标库的过程中,将错误记录进行存储,以便后续分析数据同步过程中的脏数据,并进行处理。但由于是流数据采集,任务具有不间断性,没有进行错误数记录达到阈值的触发任务停止操作,待后续用户自行对脏数据分析,进行处理。

(4)数据写入至Greenplum、Oceanbase数据源

Greenplum是基于PostgreSQL的MPP数据库,支持海量数据的存储与管理,目前在市场上也被很多企业采用。于最近,数栈基于FlinkX实现多类型数据源写入Greenplum,除全量同步外,也支持部分数据库增量同步写入。OceanBase是阿里研发的一款可扩展的金融领域关系型数据库,其用法与MySQL基本一致,实现OceanBase的数据读入写出也是基于jdbc的连接方式,进行数据表与字段的同步与写入,也支持对OceanBase进行增量写入,以及作业同步通道、并发的控制。

写入Greenplum等关系数据库时,默认是不使用事务的,因为数据量特别大的情况下,一旦任务失败,就会对业务数据库产生巨大的影响。但是在开启断点续传的时候必须开启事务,如果数据库不支持事务,则无法实现断点续传的功能。开启断点续传时,会在Flink生成快照的时候提交事务,把当前的数据写入数据库,如果两次快照期间任务失败了,则这次事务里的数据不会写入数据库,任务恢复时从上一次快照记录的位置继续同步数据,这样就可以做到任务多次失败续跑的情况下准确的同步数据。

若需了解具体技术实现,详见https://mp.weixin.qq.com/s/VknlH8L2kpnlcJ3990ZkUw

写在后面:

FlinkX经过袋鼠云内部使用以及在大量的数据中台项目中实践,目前支持以下数据源。且在FlinkX的高扩展特性下,将持续支撑更多的数据源,满足不同企业的需要,目前正在研发Clickhouse、Hana等数据源。

f3
 
FlinkX开源地址:https://github.com/DTStack/flinkx  ,希望该项目为关注大数据平台研发的开发人员带来便利,也欢迎大家共同贡献对数据同步技术的智慧与热情。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
4月前
|
消息中间件 存储 NoSQL
离线与实时数据开发方案
离线与实时数据开发方案
53 0
|
4月前
|
存储 关系型数据库 MySQL
DataX: 阿里开源的又一款高效数据同步工具
DataX 是由阿里巴巴集团开源的一款大数据同步工具,旨在解决不同数据存储之间的数据迁移、同步和实时交换的问题。它支持多种数据源和数据存储系统,包括关系型数据库、NoSQL 数据库、Hadoop 等。 DataX 提供了丰富的数据读写插件,可以轻松地将数据从一个数据源抽取出来,并将其加载到另一个数据存储中。它还提供了灵活的配置选项和高度可扩展的架构,以适应各种复杂的数据同步需求。
|
12天前
|
存储 SQL 分布式计算
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景,提供近实时增全量一体的数据存储和计算(Transaction Table2.0)解决方案。
558 1
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
|
1月前
|
存储 监控 负载均衡
TiDB数据迁移工具TiCDC:高效同步的引擎
【2月更文挑战第28天】TiCDC是TiDB生态中一款强大的数据迁移工具,它专注于实现TiDB增量数据的实时同步。通过解析上游TiKV的数据变更日志,TiCDC能够将有序的行级变更数据输出到下游系统,确保数据的实时性和一致性。本文将深入探讨TiCDC的原理、架构、应用场景以及使用方式,帮助读者更好地理解和应用这一工具,实现高效的数据迁移和同步。
|
2月前
|
存储 缓存 数据处理
Flink 2.0 状态存算分离改造实践
本文整理自阿里云智能 Flink 存储引擎团队兰兆千在 FFA 2023 核心技术(一)中 的分享,内容关于 Flink 2.0 状态存算分离改造实践的研究。
450 0
Flink 2.0 状态存算分离改造实践
|
3月前
|
存储 数据挖掘 BI
离线数据仓库规范
离线数据仓库规范
|
4月前
|
关系型数据库 Serverless OLAP
构建高效数据流转的 ETL 系统:数据库 + Serverless 函数计算的最佳实践
构建高效数据流转的 ETL 系统:数据库 + Serverless 函数计算的最佳实践
79690 2
|
6月前
|
SQL 运维 数据挖掘
重构实时离线一体化数仓,Apache Doris 在思必驰的应用实践
作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector 的实时读写和优化。
130 0
|
12月前
|
存储 SQL JSON
阿里又开源一款数据同步工具 DataX,稳定又高效,好用到爆!下
阿里又开源一款数据同步工具 DataX,稳定又高效,好用到爆!下
|
12月前
|
存储 JavaScript 小程序
阿里又开源一款数据同步工具 DataX,稳定又高效,好用到爆!上
阿里又开源一款数据同步工具 DataX,稳定又高效,好用到爆!上