Apache Flink 漫谈系列(03) - Watermark

金竹 2018-11-08

分布式系统与计算 Apache 数据流 Image source 流计算 flink Watermark

实际问题(乱序)

在介绍Watermark相关内容之前我们先抛出一个具体的问题,在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响,比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有5秒的延时,也就是在实际时间的第1秒产生的数据有可能在第5秒中产生的数据之后到来(比如到Window处理节点).选具体某个delay的元素来说,假设在一个5秒的Tumble窗口(详见Window介绍章节),有一个EventTime是 11秒的数据,在第16秒时候到来了。图示第11秒的数据,在16秒到来了,如下图:
image

那么对于一个Count聚合的Tumble(5s)的window,上面的情况如何处理才能window2=4,window3=2 呢?

Apache Flink的时间类型

开篇我们描述的问题是一个很常见的Time

登录 后评论
下一篇
我是小助手
29011人浏览
2019-07-31
相关推荐
Apache Flink 漫谈系列(04) - State
4908人浏览
2018-11-11 09:05:59
Apache Flink 漫谈系列(02) - 概述
5698人浏览
2018-11-08 15:42:43
Apache Flink 漫谈系列(01) - 序
5288人浏览
2018-11-08 15:19:39
12
5
1
5685