当前位置: 代码迷 >> 综合 >> spark报错:java.nio.channels.ClosedChannelException Couldn't connect to leader 处理
  详细解决方案

spark报错:java.nio.channels.ClosedChannelException Couldn't connect to leader 处理

热度:70   发布时间:2023-12-24 14:50:10.0

上周修改了一个程序,上线后每过一段时间就会报错,并且直接卡住,不会自动结束。

报错信息如下:

19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)
java.nio.channels.ClosedChannelException
... ...
19-10-27 19:07:08 ERROR org.apache.spark.executor.Executor:91 - Exception in task 7.1 in stage 7.0 (TID 89)
org.apache.spark.SparkException: Couldn't connect to leader for topic pc_play_log 9: java.nio.channels.ClosedChannelException
... ...

解决方式:在提交spark程序的命令中添加 --conf spark.dynamicAllocation.enabled=false ,表示关闭动态资源分配。设置该参数之后,yarn只会给该spark应用分配提交命令中指定的资源。

经查证,报错是由于集群中有5台机器有两个网卡,其中有一个网卡和zookeper集群网络不通。之前提交任务虽然人为设置了资源分配参数,但是实际运行时仍然是动态分配资源,分配了大概七八个executor,并且分配到了这5台网卡有问题的机器上,所以报错。

之所以关闭动态资源分配能解决问题,是因为该程序提交时人为设置的executor数量是两个,那么运行时,该程序只会被分配两个executor,被分配到有问题的机器的概率非常小 ( 当然理论上还是有几率分配到那5台,导致报错 )。

这种解决方式虽然治标不治本,但是实际的确解决了问题。。。 ╮( ̄▽ ̄)╭

 

  相关解决方案