DataStream事件时间 - 内建watermark生成器
- 内建watermark生成器
-
- 无变化增长的时间戳
- 修复一定数量的延迟
内建watermark生成器
如前所述,Flink提供抽象给开发人员允许分配他们自己的时间戳和发送自己的watermark. 更多确切说,通过实现 WatermarkGenerator 接口可以做.
这样的任务为了近一步简化编程,Flink提供了一些预实现的时间戳分配器.本文把他们逻辑出来. 除了开箱即用功能外,它们的实现可以做为自定义实现的一个例子.
无变化增长的时间戳
最简单的特例来生成periodic watermark 是当给定数据源任务是增量订单.在这个例子中,当前时间戳可以作为watermark,因为没有更早的时间戳会到达.
注意,那只是在不可避免时,时间戳是在每个并发数据源任务是升序的.例如,在一个特别的设置一个kafka的分区被一个并行的数据源实例来读,然后不可避免的,时间戳升序只是在每个kafka分区中.Flink watermark合并机制会生成正确的watermark,无效何时并行流被重组,合并,连接,或是合并.
WatermarkStrategy.forMonotonousTimestamps()
修复一定数量的延迟
另外一个生成 periodic watermark 的例子是在流程当watermark 落后最大的事件时间戳,是通过固定时间.这个例子覆盖一种场景,在流程最大延迟问题预先知道.例如,当创建自定义数量源中元素带的时间戳,在固定周期时间传播来测试. 对于这些案例,Flink提供了BoundedOutOfOrdernessWatermarks 生成器,它可以使用一个参数maxOutOfOrderness, 例如,符合的延时数据给结果 t - t_w, 这里的t 是元素的事件时间戳, t_w 是周期的watermark. 如果 lateness > 0 然后 元素过后被考虑,默认是忽略的当任务为它当前的时间窗口计算出结果.查看文档关于 允许延时有更多信息关于与处理延时数据.
WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(10))