1. pyspark.sql模块
是Spark SQL and DataFrames重要的类。
pyspark.sql.SparkSession
:是DataFrame and SQL 的主入口,比如可以createDataFrame
.
pyspark.sql.DataFrame
:分布式的数据集合。
pyspark.sql.Column
DataFrame的列.
pyspark.sql.Row
DataFrame的行.
pyspark.sql.GroupedData
聚合方法, 返回 DataFrame.groupBy().
pyspark.sql.DataFrameNaFunctions
处理缺失值,如null 值.
pyspark.sql.DataFrameStatFunctions
统计方法
pyspark.sql.functions
DataFrame的一些功能(掌握DataFrame必备).
pyspark.sql.types
可用的数据类型。
pyspark.sql.Window
窗口函数,如用于滑取数据等。
示例:
spark = SparkSession.builder \.master("local") \.appName("Word Count") \.config("spark.some.config.option", "some-value") \.getOrCreate()
参考:
- pyspark sql