当前位置: 代码迷 >> 综合 >> pyspark rdd操作
  详细解决方案

pyspark rdd操作

热度:43   发布时间:2024-01-24 22:58:17.0

rdd添加索引

rdd.zipWithIndex()

添加索引后,rdd转成dataframe会只有两列,以前的rdd所有数据+索引数据,需要将rdd变化为多列

def getOneDF(x):return x[0]['a'],x[0]['b'],x[0]['c'],x[0]['d'],x[1]
a.map(getOneDF).toDF().show()