1 第一种,纯粹是自己给自己找麻烦 和系统变量重名了,即str list为系统关键字 ,改一下变量名就可以了
2 我就是遇到的第二种,敲代码比较困,一不小心 写错了,找半天没看出来,
map(lambda fields: (fields(3), 1)).reduceByKey(lambda x, y: x + y).collect()
map(lambda fields: (fields[3], 1)).reduceByKey(lambda x, y: x + y).collect()
这两句看出有什么不同了吗 第一句是错的,原因是 () 和[] 的区别后者才是python中的索引,可能是我用scala习惯了吧
scala就是直接map((_,1)).reduceByKey(_+_), fields(3) ,
就是在scala中()是取切分后的第几位元素,而在python中[] 是取第几位元素
并且在python中 list还是tuple都是通过[] 取第几位元素,都是从零开始的下标
map(lambda fields: (fields[3], 1)).reduceByKey(lambda x, y: x + y).collect()
也可用countByValue() 替代 ,吐槽一下为什么每次都要加lambda ,没有scala简洁