当前位置: 代码迷 >> 综合 >> Flink1.13 DataStream API - Event Time - Builtin Watermark Generator
  详细解决方案

Flink1.13 DataStream API - Event Time - Builtin Watermark Generator

热度:24   发布时间:2024-01-05 10:15:30.0

DataStream事件时间 - 内建watermark生成器

  • 内建watermark生成器
    • 无变化增长的时间戳
    • 修复一定数量的延迟

内建watermark生成器

如前所述,Flink提供抽象给开发人员允许分配他们自己的时间戳和发送自己的watermark. 更多确切说,通过实现 WatermarkGenerator 接口可以做.

这样的任务为了近一步简化编程,Flink提供了一些预实现的时间戳分配器.本文把他们逻辑出来. 除了开箱即用功能外,它们的实现可以做为自定义实现的一个例子.

无变化增长的时间戳

最简单的特例来生成periodic watermark 是当给定数据源任务是增量订单.在这个例子中,当前时间戳可以作为watermark,因为没有更早的时间戳会到达.

注意,那只是在不可避免时,时间戳是在每个并发数据源任务是升序的.例如,在一个特别的设置一个kafka的分区被一个并行的数据源实例来读,然后不可避免的,时间戳升序只是在每个kafka分区中.Flink watermark合并机制会生成正确的watermark,无效何时并行流被重组,合并,连接,或是合并.

WatermarkStrategy.forMonotonousTimestamps()

修复一定数量的延迟

另外一个生成 periodic watermark 的例子是在流程当watermark 落后最大的事件时间戳,是通过固定时间.这个例子覆盖一种场景,在流程最大延迟问题预先知道.例如,当创建自定义数量源中元素带的时间戳,在固定周期时间传播来测试. 对于这些案例,Flink提供了BoundedOutOfOrdernessWatermarks 生成器,它可以使用一个参数maxOutOfOrderness, 例如,符合的延时数据给结果 t - t_w, 这里的t 是元素的事件时间戳, t_w 是周期的watermark. 如果 lateness > 0 然后 元素过后被考虑,默认是忽略的当任务为它当前的时间窗口计算出结果.查看文档关于 允许延时有更多信息关于与处理延时数据.

WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(10))
  相关解决方案