备案控制台

开发者社区

开发者社区数据库文章正文

袋鼠云研发手记 | 开源·数栈-扩展FlinkSQL实现流与维表的join

2019-04-18 3532

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 作为一家创新驱动的科技公司，袋鼠云每年研发投入达数千万，公司80%员工都是技术人员，袋鼠云产品家族包括企业级一站式数据中台PaaS数栈、交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代。

作为一家创新驱动的科技公司，袋鼠云每年研发投入达数千万，公司80%员工都是技术人员，袋鼠云产品家族包括企业级一站式数据中台PaaS数栈、交互式数据可视化大屏开发平台Easy[V]等产品也在迅速迭代。在进行产品研发的过程中，技术小哥哥们能文能武，不断提升产品性能和体验的同时，也把这些提升和优化过程记录下来，现录入“袋鼠云研发手记”专栏中，以和业内童鞋们分享交流。

下为“袋鼠云研发手记”专栏第三期，本期作者为袋鼠云数栈引擎团队。

袋鼠云数栈引擎团队

袋鼠云数栈引擎团队拥有多名专家级别，经验丰富的后端开发工程师，分别支撑公司大数栈产品线的不同子项目的开发需求，从项目中提取并开源了FlinkX（基于Flink的数据同步）,Jlogstash（logstash 的java 版本实现）,FlinkStreamSQL（扩展原生FlinkSQL，实现流与维表的join）多个项目。

在长期的项目实践与产品迭代过程中，团队成员在 Hadoop技术栈上不断深耕探索，积累了丰富的经验与最佳实践。

第三期

数栈·开源拓展FlinkSQL实现流与维表的join

FlinkStreamSQL 已经开源在Github上目前已获380+Star

1、为什么要扩展FlinkSQL？

实时计算需要完全SQL化

SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见，但是支持SQL的实时计算并不多。其实，用SQL开发实时任务可以极大降低数据开发的门槛，在袋鼠云数栈-实时计算模块，我们决定实现完全SQL化。

**数据计算采用SQL的优势
**
声明式。用户只需要表达我想要什么，至于怎么计算那是系统的事情，用户不用关心。

自动调优。查询优化器可以为用户的 SQL 生成最有的执行计划。用户不需要了解它，就能自动享受优化器带来的性能提升。

易于理解。很多不同行业不同领域的人都懂 SQL，SQL 的学习门槛很低，用 SQL 作为跨团队的开发语言可以很大地提高效率。

稳定。SQL 是一个拥有几十年历史的语言，是一个非常稳定的语言，很少有变动。所以当我们升级引擎的版本时，甚至替换成另一个引擎，都可以做到兼容地、平滑地升级。

实时计算还需要流与维表的JOIN

在实时计算的世界里不只是流与流的JOIN，还需要流与维表的JOIN

在实时计算的世界里不只是流与流的JOIN，还需要流与维表的JOIN。在去年，袋鼠云数栈V3.0版本研发期间，当时最新版本——flink1.6中FlinkSQL，已经将SQL的优势应用到Flink引擎中，但还未支持流与维表的JOIN。

关于FlinkSQL

FlinkSQL于2017年7月开始面向阿里巴巴集团开放流计算服务的，虽然是一个非常年轻的产品，但是到双11期间已经支撑了数千个作业，在双11期间，Blink 作业的处理峰值达到了5+亿每秒，而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。

参考链接：https://yq.aliyun.com/articles/457438

这里先解释下什么是维表；维表是动态表，表里所存储的数据有可能不变，也有可能定时更新，但是更新频率不是很频繁。在业务开发中一般的维表数据存储在关系型数据库如mysql，oracle等，也可能存储在hbase，redis等nosql数据库。

2、所以要用FlinkSQL实现流与维表的join 分两步：

一、用Flink api实现维表的功能

要实现维表功能就要用到 Flink Aysnc I/O 这个功能，是由阿里巴巴贡献给Apache Flink的。

Async I/O 是由阿里巴巴贡献给社区的，于1.2版本引入，主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。具体介绍可以看这篇文章：http://wuchong.me/blog/2017/05/17/flink-internals-async-io/

对应到Flink 的api就是RichAsyncFunction 这个抽象类，继层这个抽象类实现里面的open（初始化），asyncInvoke（数据异步调用），close（停止的一些操作）方法，最主要的是实现asyncInvoke 里面的方法。

流与维表的join会碰到两个问题：

第一个是性能问题。因为流速要是很快，每一条数据都需要到维表做下join，但是维表的数据是存在第三方存储系统，如果实时访问第三方存储系统，不仅join的性能会差，每次都要走网络io；还会给第三方存储系统带来很大的压力，有可能会把第三方存储系统搞挂掉。

所以解决的方法就是维表里的数据要缓存，可以全量缓存，这个主要是维表数据不大的情况，还有一个是LRU缓存，维表数据量比较大的情况。

LRU维表的实现

第二个问题是流延迟过来的数据这么跟之前的维表数据做关联。这个就涉及到维表数据需要存储快照数据，所以这样的场景用HBase 做维表是比较适合的，因为HBase 是天生支持数据多版本的。

ALL维表的实现

二、解析流与维表join的SQL语法转化成底层的FlinkAPI

因为FlinkSQL已经做了大部分SQL场景，我们不可能在去解析SQL的所有语法，在把他转化成底层FlinkAPI。

所以我们做的就是解析SQL语法，来找到join表里有没有维表，如果有维表，那我们会把这个join的维表的语句单独拆来，用Flink的TableAPI和StreamAPi 生成新DataStream，在把这个DataStream与其他的表在做join这样就能用SQL来实现流与维表的join语法了。

SQL解析的工具就是用Apache calcite，Flink也是用这个框架做SQL解析的。所以所有语法都是可以解析的。

1. DEMO SQL

2. Calcite解析Insert into语句，拆分出子语句

**3. Calcite继续解析select语句
**

Calcite继续解析select语句

Calcite继续解析select语句

文章标签：

实时计算 Flink版

云解析DNS

SQL

存储

流计算

缓存

数据可视化

关系型数据库

NoSQL

双11

Oracle

API

相关实践学习

基于Hologres轻松玩转一站式实时仓库

本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。

Linux入门到精通

本套课程是从入门开始的Linux学习课程，适合初学者阅读。由浅入深案例丰富，通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员，只要能够坚持把所有章节都学完，也一定会受益匪浅。

袋鼠云

目录

相关文章

上单

|

SQL 分布式计算大数据

阿里云大数据利器Maxcompute学习之--分区表的使用

初学大数据Maxcompute时部分用户不是很熟悉Maxcompute分区表的概念和使用，那这篇文章来简单介绍下分区表的概念及使用场景。实际上，分区在很多框架中都有这个概念，比如开源框架中的hive等。

上单

14510 0 0

vohelon

|

1月前

|

SQL 分布式计算监控

大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点：

【2月更文挑战第24天】大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点：

vohelon

20 2 2

TDengine

|

1月前

|

运维监控流计算

TDengine 3.2.3.0 版本发布，流计算等八大板块功能更新

据了解，3.2.3.0 版本涉及到的更新内容包括流计算、传输压缩、授权机制、监控、数据接入、Explorer、性能优化、运维优化八大模块。

TDengine

97 2 2

阿里云瑶池数据库SelectDB

|

4月前

|

存储 SQL 数据挖掘

某工商信息商业查询平台基于阿里云数据库 SelectDB 版内核 Apache Doris 的湖仓一体建设实践

从传统 Lambda 架构到基于 Doris Multi-Catalog 的湖仓一体架构实践，保证了数据的准确性和实时性、高效处理和分析了大规模数据，推动信息服务行业发展创新！

阿里云瑶池数据库SelectDB

226 0 0

某工商信息商业查询平台基于阿里云数据库 SelectDB 版内核 Apache Doris 的湖仓一体建设实践

ftw2fzqaoykua

|

存储分布式计算 DataWorks

持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记（三）

快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

ftw2fzqaoykua

233 0 1

持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记（三）

ftw2fzqaoykua

|

存储分布式计算安全

持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记（一）

快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

ftw2fzqaoykua

150 0 0

持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记（一）

ftw2fzqaoykua

|

存储分布式计算 DataWorks

持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记（二）

快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护

ftw2fzqaoykua

267 0 0

持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记（二）

ftw2fzqaoykua

|

存储分布式计算 DataWorks

持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护 | 学习笔记

快速学习持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护，介绍了持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护系统机制，以及在实际应用过程中如何使用。

ftw2fzqaoykua

200 0 0

持续定义 SaaS 模式云数据仓库 ——MaxCompute 数据的持续保护 | 学习笔记

ybbf7fwncy2w2

|

存储缓存分布式计算

HSAP 理念与 Hologres 设计原理（二）|学习笔记

快速学习HSAP 理念与 Hologres 设计原理（二）

ybbf7fwncy2w2

105 0 0

HSAP 理念与 Hologres 设计原理（二）|学习笔记

ybbf7fwncy2w2

|

存储分布式计算监控

HSAP 理念与 Hologres 设计原理（一）|学习笔记

快速学习 HSAP 理念与 Hologres 设计原理（一）

ybbf7fwncy2w2

92 0 0

HSAP 理念与 Hologres 设计原理（一）|学习笔记

热门文章

最新文章

理解事务的4种隔离级别

疑犯追踪第一季/全集Person Of Interest迅雷下载

简单实用的数据建模工具PDManer

详细讲解！Canal+Kafka实现MySQL与Redis数据同步！

71.7. Script for automatic startup on boot

关于Oracle客户端显示乱码问题

PHPWAMP站点管理的“域名模式”和“端口模式”详解、均支持自定义

学校里学不到的东西(一)

Python 3 教程一:入门

Python的装饰器

R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据

数据分享|R语言用logistic逻辑回归和AFRIMA、ARIMA时间序列模型预测世界人口

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（下）

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（上）

数据分享|数据探索电商平台用户行为流失可视化分析

电商平台数据可视化分析网红零食销量

R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题

数据分享|R语言GLM广义线性模型：逻辑回归、泊松回归拟合小鼠临床试验数据（剂量和反应）示例和自测题

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC（下）

相关课程

更多

SaaS模式云数据仓库实战

SaaS 模式云数据仓库必修课

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

基于MaxCompute的热门话题分析

MaxCompute行业应用及调优

云数据库优化十大典型案例

相关电子书

更多

听云平台RUM业务数据的实时流式处理实践

苑海胜专访《MaxCompute 与大数据查询引擎的技术和故事》

阿里云流计算在阿里搜索与推荐业务的应用

相关实验场景

更多

基于DTS构建一站式实时数据服务

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于Hologres+Flink搭建GitHub实时数据大屏

云原生HTAP数据库，让你的交易和分析一库搞定

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用计算巢企业应用，一键获取专属图数据库服务

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）