火花會話

入口點和數據集和DataFrame API編程火花。創建一個火花會話,您應該使用SparkSession.builder屬性。另請參閱SparkSession

SparkSession.builder.appName(名字)

設置應用程序的名稱,將顯示在web UI火花。

SparkSession.builder.config([鍵、值、])

設置一個配置選項。

SparkSession.builder.enableHiveSupport()

使蜂巢支持,包括連接到一個持久蜂巢metastore,支持蜂巢並行轉換器和蜂窩用戶自定義函數。

SparkSession.builder.getOrCreate()

就現有的SparkSession或者,如果沒有現有的,創造了一個新的基於選項集生成器。

SparkSession.builder.master(主)

設置火花主人要連接的URL,比如“本地”在本地運行,“當地[4]“本地運行4核,或“火花:/ /主:7077”火花獨立集群上運行。

SparkSession.catalog

界麵,通過它,用戶可以創建、刪除、更改或查詢底層數據庫、表、函數等。

SparkSession.conf

為引發運行時配置界麵。

SparkSession.createDataFrame(數據、模式…)

創建一個DataFrame從一個抽樣一個列表,pandas.DataFrame或者一個numpy.ndarray

SparkSession.getActiveSession()

返回活動SparkSession當前線程返回的建設者

SparkSession.newSession()

返回一個新的SparkSession新會話,有單獨的SQLConf注冊臨時視圖和udf,但共享SparkContext和表緩存。

SparkSession.range(開始、結束步驟,…))

創建一個DataFrame與單pyspark.sql.types.LongType列命名id,包含元素的範圍從開始結束(獨家)值一步

SparkSession.read

返回一個DataFrameReader可以用來作為一個讀取數據DataFrame

SparkSession.readStream

返回一個DataStreamReader可以用於讀取數據流流DataFrame

SparkSession.sparkContext

返回底層SparkContext

SparkSession.sql(args sqlQuery * * kwargs)

返回一個DataFrame代表給定查詢的結果。

SparkSession.stop()

阻止潛在的SparkContext

SparkSession.streams

返回一個StreamingQueryManager讓所有的管理StreamingQuery實例的活躍上下文。

SparkSession.table(表)

返回指定表的DataFrame

SparkSession.udf

返回一個UDFRegistrationUDF登記。

SparkSession.version

火花的版本運行該應用程序。