当前位置: 代码迷 >> 综合 >> Doris export任务概率性cancelled
  详细解决方案

Doris export任务概率性cancelled

热度:43   发布时间:2023-11-28 01:08:44.0

报错背景

版本

从百度预编译版v0.13.15至v0.14.12.7都有这个问题
doris 表导入至hive,采用doris的export

export参数

70多G的数据表
单分区
150桶
三副本
共3*150个tablet

export任务参数
“timeout” = “36000”
“tablet_num_per_task”=“5”,没填,默认就是5

export任务参数
{“partitions”:["*"],“exec mem limit”:2147483648,“column separator”:"\t",“line delimiter”:"\n",“tablet num”:150,“broker”:“hdfs_broker”,“coord num”:30}

报错内容

凌晨的export任务概率性的cancelled

show export order by createtime desc;

ErrorMsg显示
type:RUN_FAIL; msg:export exporting job fail. query id: 62959258a4a34a77-8022182881c3b943, Failed to get query fragments context. Query may be timeout or be cancelled. host:

日志跟踪

fe-master节点日志

根据JobId搜索日志最底下
在这里插入图片描述
process 13%失败

往上翻
在这里插入图片描述
fe日志这里,
第一次的62959258a4a34a77-8b613083f3eceabb执行失败然后cancel了,
后面又重新注册62959258a4a34a77-8022182881c3b943,
然后fragment分发给三个be,
但是他直接就exec plan fragment failed了

be节点日志

在这里插入图片描述
62959258a4a34a77-8022182881c3b943这个job到be后,
62959258a4a34a77-8022182881c3b944失败了
reason:3是有特殊含义嘛
查阅be代码
在这里插入图片描述

分析

概率性失败事件
会不会因为集群load balance当时比较高的原因?
查看Prometheus监控,任务失败时间集群并没有异常
调整了些fe

  相关解决方案