order by 是全局排序,但在数据量大的情况下花费时间长
sort by 是将reduce的单个输出进行排序,不能保证全局有序
distribute by 按照字段将数据划分到不同的reduce中 distribute 在sort 前面
当distribute by 字段和 sort by的字段相同时可以用cluster by替代
order by 是全局排序,但在数据量大的情况下花费时间长
sort by 是将reduce的单个输出进行排序,不能保证全局有序
distribute by 按照字段将数据划分到不同的reduce中 distribute 在sort 前面
当distribute by 字段和 sort by的字段相同时可以用cluster by替代