DataFrame

DataFrame.agg(* exprs)

總對整個DataFrame沒有組(簡稱.agg df.groupBy () ())。

DataFrame.alias(別名)

返回一個新的DataFrame設置一個別名。

DataFrame.approxQuantile(坳、概率、…)

計算的近似數值列的分位數DataFrame

DataFrame.cache()

持續的DataFrame使用默認存儲水平(MEMORY_AND_DISK)。

DataFrame.checkpoint((渴望))

返回一個檢查點的版本DataFrame

DataFrame.coalesce(numPartitions)

返回一個新的DataFrame已經完全numPartitions分區。

DataFrame.colRegex(colName)

基於列的選擇列名稱指定為一個正則表達式並返回它

DataFrame.collect()

返回所有記錄的列表

DataFrame.columns

返回所有列名列表。

DataFrame.corr(col1 col2[方法])

計算兩列的相關性DataFrame作為一個雙精度值。

DataFrame.count()

返回的行數DataFrame

DataFrame.cov(col1 col2)

計算樣本協方差為給定的列,指定他們的名字,作為一個雙重價值。

DataFrame.createGlobalTempView(名字)

創建一個全局臨時視圖DataFrame

DataFrame.createOrReplaceGlobalTempView(名字)

創建或替換一個全局臨時視圖使用給定的名稱。

DataFrame.createOrReplaceTempView(名字)

創建或替換本地臨時視圖DataFrame

DataFrame.createTempView(名字)

創建一個本地臨時視圖DataFrame

DataFrame.crossJoin(其他)

返回笛卡兒積與另一個DataFrame

DataFrame.crosstab(col1 col2)

計算兩兩頻率給定的表列。

DataFrame.cube(*峽路)

為當前創建多維數據集DataFrame使用指定的列,所以我們可以運行聚合。

DataFrame.describe(*峽路)

計算基本統計數字和字符串列。

DataFrame.distinct()

返回一個新的DataFrame包含不同的行DataFrame

DataFrame.drop(*峽路)

返回一個新的DataFrame這滴指定的列。

DataFrame.dropDuplicates((子集))

返回一個新的DataFrame刪除重複的行,選擇隻考慮某些列。

DataFrame.drop_duplicates((子集))

drop_duplicates ()是一個別名dropDuplicates ()

DataFrame.dropna([如何顛簸,子集])

返回一個新的DataFrame省略具有零值的行。

DataFrame.dtypes

返回所有列名和數據類型作為一個列表。

DataFrame.exceptAll(其他)

返回一個新的DataFrame包含在這行DataFrame但不是在另一個DataFrame同時保留副本。

DataFrame.explain([擴展、模式])

打印到控製台(邏輯和物理)計劃用於調試目的。

DataFrame.fillna(價值[,]子集)

替換空值,別名na.fill ()

DataFrame.filter(條件)

過濾器使用給定的條件行。

DataFrame.first()

返回第一行作為一個

DataFrame.foreach(f)

應用f函數對所有DataFrame

DataFrame.foreachPartition(f)

應用f函數的每個分區DataFrame

DataFrame.freqItems(關口[支持])

發現頻繁項目列,可能與假陽性。

DataFrame.groupBy(*峽路)

組的DataFrame使用指定的列,所以我們可以運行聚合。

DataFrame.head([n])

返回第一個n行。

DataFrame.hint(名稱、*參數)

指定當前的一些提示DataFrame

DataFrame.inputFiles()

返回一個最優的快照文件組成DataFrame

DataFrame.intersect(其他)

返回一個新的DataFrame隻有在這種包含行DataFrame和另一個DataFrame

DataFrame.intersectAll(其他)

返回一個新的DataFrame包含在這行DataFrame和另一個DataFrame同時保留副本。

DataFrame.isEmpty()

返回真正的如果這DataFrame是空的。

DataFrame.isLocal()

返回真正的如果收集()帶()方法可以在本地運行(沒有任何火花執行人)。

DataFrame.isStreaming

返回真正的如果這DataFrame包含一個或多個源不斷地返回數據,因為它的到來。

DataFrame.join(其他(,,))

連接與另一個DataFrame,使用給定的連接表達式。

DataFrame.limit(num)

限製結果數到指定的號碼。

DataFrame.localCheckpoint((渴望))

返回一個局部檢查點的版本DataFrame

DataFrame.mapInPandas(函數模式)

地圖批次在當前的迭代器DataFrame使用Python的本機函數和輸出一個熊貓DataFrame,並返回結果DataFrame

DataFrame.mapInArrow(函數模式)

地圖批次在當前的迭代器DataFrame使用Python的本機函數和輸出PyArrow的RecordBatch,並返回結果DataFrame

DataFrame.na

返回一個DataFrameNaFunctions處理缺失值。

DataFrame.observe(觀察、* exprs)

定義(命名)DataFrame指標觀察。

DataFrame.orderBy(*關口,* * kwargs)

返回一個新的DataFrame按指定的列(s)。

DataFrame.persist([storageLevel])

設置存儲水平持續的內容DataFrame在操作後第一次計算。

DataFrame.printSchema()

在樹格式打印模式。

DataFrame.randomSplit(重量、種子)

隨機將這DataFrame與所提供的重量。

DataFrame.rdd

作為一個返回內容pyspark.RDD

DataFrame.registerTempTable(名字)

注冊了這家DataFrame作為一個臨時表使用給定的名稱。

DataFrame.repartition(*關口numPartitions)

返回一個新的DataFrame分區的分區表達式。

DataFrame.repartitionByRange(numPartitions…)

返回一個新的DataFrame分區的分區表達式。

DataFrame.replace(to_replace[],價值,子集)

返回一個新的DataFrame值替換為另一個值。

DataFrame.rollup(*峽路)

為當前創建一個多維的彙總DataFrame使用指定的列,所以我們可以運行聚合。

DataFrame.sameSemantics(其他)

返回真正的當內部邏輯查詢計劃DataFrame年代是相等的,因此返回相同的結果。

DataFrame.sample([withReplacement,…)

返回一個樣本子集DataFrame

DataFrame.sampleBy(坳,分數(、種子))

返回一個分層抽樣不重複每層基於給出的分數。

DataFrame.schema

返回的模式DataFrame作為一個pyspark.sql.types.StructType

DataFrame.select(*峽路)

項目一組表達式並返回一個新的DataFrame

DataFrame.selectExpr(* expr)

項目一組SQL表達式,並返回一個新的DataFrame

DataFrame.semanticHash()

返回一個散列碼邏輯查詢計劃的反對DataFrame

DataFrame.show([n,截斷,垂直])

印第n行到控製台。

DataFrame.sort(*關口,* * kwargs)

返回一個新的DataFrame按指定的列(s)。

DataFrame.sortWithinPartitions(*關口,* * kwargs)

返回一個新的DataFrame與每個分區按指定的列(s)。

DataFrame.sparkSession

返回會話創建這個火花DataFrame

DataFrame.stat

返回一個DataFrameStatFunctions統計功能。

DataFrame.storageLevel

得到了DataFrame目前的存儲水平。

DataFrame.subtract(其他)

返回一個新的DataFrame包含在這行DataFrame但不是在另一個DataFrame

DataFrame.summary(*統計)

計算指定的統計數字和字符串列。

DataFrame.tail(num)

返回最後一個全國礦工工會行作為一個列表

DataFrame.take(num)

返回第一個全國礦工工會行作為一個列表

DataFrame.toDF(*峽路)

返回一個新的DataFrame與新指定的列名

DataFrame.toJSON([use_unicode])

轉換DataFrame成一個抽樣的字符串。

DataFrame.toLocalIterator([prefetchPartitions])

返回一個迭代器,包含所有的行DataFrame

DataFrame.toPandas()

返回的內容DataFrame像熊貓pandas.DataFrame

DataFrame.to_pandas_on_spark([index_col])

DataFrame.transform(* args func * * kwargs)

返回一個新的DataFrame

DataFrame.union(其他)

返回一個新的DataFrame在這個和另一個包含的行DataFrame

DataFrame.unionAll(其他)

返回一個新的DataFrame在這個和另一個包含的行DataFrame

DataFrame.unionByName(其他[…])

返回一個新的DataFrame在這個和另一個包含的行DataFrame

DataFrame.unpersist((阻塞))

標誌著DataFrame非持久性,並刪除所有從內存和磁盤塊。

DataFrame.where(條件)

在()是一個別名filter ()

DataFrame.withColumn(colName坳)

返回一個新的DataFrame通過添加一個列或替換現有的列有相同的名字。

DataFrame.withColumns(* colsMap)

返回一個新的DataFrame通過添加多個列或替換現有的列有相同的名字。

DataFrame.withColumnRenamed(現有的)

返回一個新的DataFrame通過重命名一個已有的列。

DataFrame.withMetadata(columnName元數據)

返回一個新的DataFrame通過更新現有列元數據。

DataFrame.withWatermark(eventTime…)

定義了一個事件時間水印DataFrame

DataFrame.write

界麵保存的內容的非DataFrame到外部存儲。

DataFrame.writeStream

界麵保存的內容流DataFrame到外部存儲。

DataFrame.writeTo(表)

創建一個為v2消息編寫配置構建器。

DataFrame.pandas_api([index_col])

現有DataFrame轉換成pandas-on-Spark DataFrame。

DataFrameNaFunctions.drop([如何顛簸,子集])

返回一個新的DataFrame省略具有零值的行。

DataFrameNaFunctions.fill(價值[,]子集)

替換空值,別名na.fill ()

DataFrameNaFunctions.replace(to_replace […])

返回一個新的DataFrame值替換為另一個值。

DataFrameStatFunctions.approxQuantile(col…)

計算的近似數值列的分位數DataFrame

DataFrameStatFunctions.corr(col1 col2[方法])

計算兩列的相關性DataFrame作為一個雙精度值。

DataFrameStatFunctions.cov(col1 col2)

計算樣本協方差為給定的列,指定他們的名字,作為一個雙重價值。

DataFrameStatFunctions.crosstab(col1 col2)

計算兩兩頻率給定的表列。

DataFrameStatFunctions.freqItems(關口[支持])

發現頻繁項目列,可能與假陽性。

DataFrameStatFunctions.sampleBy(坳,分數)

返回一個分層抽樣不重複每層基於給出的分數。