当前位置: 代码迷 >> 综合 >> pySpark 关于SparkContext和SQLContext等模块
  详细解决方案

pySpark 关于SparkContext和SQLContext等模块

热度:52   发布时间:2023-12-19 02:57:33.0

1. pyspark.sql模块

是Spark SQL and DataFrames重要的类。

pyspark.sql.SparkSession :是DataFrame and SQL 的主入口,比如可以createDataFrame.

pyspark.sql.DataFrame :分布式的数据集合。

pyspark.sql.Column DataFrame的列.

pyspark.sql.Row DataFrame的行.

pyspark.sql.GroupedData 聚合方法, 返回 DataFrame.groupBy().

pyspark.sql.DataFrameNaFunctions 处理缺失值,如null 值.

pyspark.sql.DataFrameStatFunctions 统计方法

pyspark.sql.functions DataFrame的一些功能(掌握DataFrame必备).

pyspark.sql.types 可用的数据类型。

pyspark.sql.Window 窗口函数,如用于滑取数据等。

示例:

spark = SparkSession.builder \.master("local") \.appName("Word Count") \.config("spark.some.config.option", "some-value") \.getOrCreate()

参考:

  1. pyspark sql