报错背景
版本
从百度预编译版v0.13.15至v0.14.12.7都有这个问题
doris 表导入至hive,采用doris的export
export参数
70多G的数据表
单分区
150桶
三副本
共3*150个tablet
export任务参数
“timeout” = “36000”
“tablet_num_per_task”=“5”,没填,默认就是5
export任务参数
{“partitions”:["*"],“exec mem limit”:2147483648,“column separator”:"\t",“line delimiter”:"\n",“tablet num”:150,“broker”:“hdfs_broker”,“coord num”:30}
报错内容
凌晨的export任务概率性的cancelled
show export order by createtime desc;
ErrorMsg显示
type:RUN_FAIL; msg:export exporting job fail. query id: 62959258a4a34a77-8022182881c3b943, Failed to get query fragments context. Query may be timeout or be cancelled. host:
日志跟踪
fe-master节点日志
根据JobId搜索日志最底下
process 13%失败
往上翻
fe日志这里,
第一次的62959258a4a34a77-8b613083f3eceabb执行失败然后cancel了,
后面又重新注册62959258a4a34a77-8022182881c3b943,
然后fragment分发给三个be,
但是他直接就exec plan fragment failed了
be节点日志
62959258a4a34a77-8022182881c3b943这个job到be后,
62959258a4a34a77-8022182881c3b944失败了
reason:3是有特殊含义嘛
查阅be代码
分析
概率性失败事件
会不会因为集群load balance当时比较高的原因?
查看Prometheus监控,任务失败时间集群并没有异常
调整了些fe