当前位置: 代码迷 >> 综合 >> 大数据Interview Summary
  详细解决方案

大数据Interview Summary

热度:18   发布时间:2023-12-15 22:55:51.0

1.数据倾斜:原因:1.数据特点 2.key设计不合理 本质:数据任务分配不均匀[分区] hive spark都有, shuffle
解决:1.避免shuffle。2.重新设计key和分区算法(eg:打散key,根本上解决) 3.提高电脑性能(加内存、加CPU、加核)。
ReduceTask数大于等于2必然有shuffle过程,shuffle 会使1.性能低 2.数据倾斜 应尽可能避免使用shuffle过程。