火花會話¶

入口點和數據集和DataFrame API編程火花。創建一個火花會話,您應該使用SparkSession.builder屬性。另請參閱SparkSession。

`SparkSession.builder.appName`(名字)	設置應用程序的名稱,將顯示在web UI火花。
`SparkSession.builder.config`([鍵、值、])	設置一個配置選項。
`SparkSession.builder.enableHiveSupport`()	使蜂巢支持,包括連接到一個持久蜂巢metastore,支持蜂巢並行轉換器和蜂窩用戶自定義函數。
`SparkSession.builder.getOrCreate`()	就現有的`SparkSession`或者,如果沒有現有的,創造了一個新的基於選項集生成器。
`SparkSession.builder.master`(主)	設置火花主人要連接的URL,比如“本地”在本地運行,“當地[4]“本地運行4核,或“火花:/ /主:7077”火花獨立集群上運行。
`SparkSession.catalog`	界麵,通過它,用戶可以創建、刪除、更改或查詢底層數據庫、表、函數等。
`SparkSession.conf`	為引發運行時配置界麵。
`SparkSession.createDataFrame`(數據、模式…)	創建一個`DataFrame`從一個`抽樣`一個列表,`pandas.DataFrame`或者一個`numpy.ndarray`。
`SparkSession.getActiveSession`()	返回活動`SparkSession`當前線程返回的建設者
`SparkSession.newSession`()	返回一個新的`SparkSession`新會話,有單獨的SQLConf注冊臨時視圖和udf,但共享`SparkContext`和表緩存。
`SparkSession.range`(開始、結束步驟,…))	創建一個`DataFrame`與單`pyspark.sql.types.LongType`列命名`id`,包含元素的範圍從`開始`來`結束`(獨家)值`一步`。
`SparkSession.read`	返回一個`DataFrameReader`可以用來作為一個讀取數據`DataFrame`。
`SparkSession.readStream`	返回一個`DataStreamReader`可以用於讀取數據流流`DataFrame`。
`SparkSession.sparkContext`	返回底層`SparkContext`。
`SparkSession.sql`(args sqlQuery * * kwargs)	返回一個`DataFrame`代表給定查詢的結果。
`SparkSession.stop`()	阻止潛在的`SparkContext`。
`SparkSession.streams`	返回一個`StreamingQueryManager`讓所有的管理`StreamingQuery`實例的活躍這上下文。
`SparkSession.table`(表)	返回指定表的`DataFrame`。
`SparkSession.udf`	返回一個`UDFRegistration`UDF登記。
`SparkSession.version`	火花的版本運行該應用程序。

以前的

pyspark.sql.DataFrameWriter

下一個

pyspark.sql.SparkSession.builder.appName