问题
spark任务去使用http协议直接连接doris be节点进行streamLoad任务的数据传输(hive->Doris),分批次的streamLoad
但是运行了一段时间
Doris的StreamLoad任务报错
transaction commit successfully, BUT data will be visible later
分析
有一批次streamLoad任务报错
实际是publish超时了
这个猜测可能是fe处理不过来,提高单次导入的吞吐,
也可能be 有压力来不及publish了
解决办法
降低streamLoad任务每批次的频次
提高单次导入的数据量
保证总的数据量不变
这个解决办法是建议性的,并未尝试
因为后来我又等集群恢复了后
重试了几次,streamLoad就恢复了,不在报错了