DataFrame.agg (* exprs)
|
總對整個DataFrame 沒有組(簡稱.agg df.groupBy () () )。 |
DataFrame.alias (別名)
|
返回一個新的DataFrame 設置一個別名。 |
DataFrame.approxQuantile (坳、概率、…)
|
計算的近似數值列的分位數DataFrame 。 |
DataFrame.cache ()
|
持續的DataFrame 使用默認存儲水平(MEMORY_AND_DISK)。 |
DataFrame.checkpoint ((渴望))
|
返回一個檢查點的版本DataFrame 。 |
DataFrame.coalesce (numPartitions)
|
返回一個新的DataFrame 已經完全numPartitions分區。 |
DataFrame.colRegex (colName)
|
基於列的選擇列名稱指定為一個正則表達式並返回它列 。 |
DataFrame.collect ()
|
返回所有記錄的列表行 。 |
DataFrame.columns
|
返回所有列名列表。 |
DataFrame.corr (col1 col2[方法])
|
計算兩列的相關性DataFrame 作為一個雙精度值。 |
DataFrame.count ()
|
返回的行數DataFrame 。 |
DataFrame.cov (col1 col2)
|
計算樣本協方差為給定的列,指定他們的名字,作為一個雙重價值。 |
DataFrame.createGlobalTempView (名字)
|
創建一個全局臨時視圖DataFrame 。 |
DataFrame.createOrReplaceGlobalTempView (名字)
|
創建或替換一個全局臨時視圖使用給定的名稱。 |
DataFrame.createOrReplaceTempView (名字)
|
創建或替換本地臨時視圖DataFrame 。 |
DataFrame.createTempView (名字)
|
創建一個本地臨時視圖DataFrame 。 |
DataFrame.crossJoin (其他)
|
返回笛卡兒積與另一個DataFrame 。 |
DataFrame.crosstab (col1 col2)
|
計算兩兩頻率給定的表列。 |
DataFrame.cube (*峽路)
|
為當前創建多維數據集DataFrame 使用指定的列,所以我們可以運行聚合。 |
DataFrame.describe (*峽路)
|
計算基本統計數字和字符串列。 |
DataFrame.distinct ()
|
返回一個新的DataFrame 包含不同的行DataFrame 。 |
DataFrame.drop (*峽路)
|
返回一個新的DataFrame 這滴指定的列。 |
DataFrame.dropDuplicates ((子集))
|
返回一個新的DataFrame 刪除重複的行,選擇隻考慮某些列。 |
DataFrame.drop_duplicates ((子集))
|
drop_duplicates () 是一個別名dropDuplicates () 。
|
DataFrame.dropna ([如何顛簸,子集])
|
返回一個新的DataFrame 省略具有零值的行。 |
DataFrame.dtypes
|
返回所有列名和數據類型作為一個列表。 |
DataFrame.exceptAll (其他)
|
返回一個新的DataFrame 包含在這行DataFrame 但不是在另一個DataFrame 同時保留副本。 |
DataFrame.explain ([擴展、模式])
|
打印到控製台(邏輯和物理)計劃用於調試目的。 |
DataFrame.fillna (價值[,]子集)
|
替換空值,別名na.fill () 。 |
DataFrame.filter (條件)
|
過濾器使用給定的條件行。 |
DataFrame.first ()
|
返回第一行作為一個行 。 |
DataFrame.foreach (f)
|
應用f 函數對所有行 這DataFrame 。 |
DataFrame.foreachPartition (f)
|
應用f 函數的每個分區DataFrame 。 |
DataFrame.freqItems (關口[支持])
|
發現頻繁項目列,可能與假陽性。 |
DataFrame.groupBy (*峽路)
|
組的DataFrame 使用指定的列,所以我們可以運行聚合。 |
DataFrame.head ([n])
|
返回第一個n 行。 |
DataFrame.hint (名稱、*參數)
|
指定當前的一些提示DataFrame 。 |
DataFrame.inputFiles ()
|
返回一個最優的快照文件組成DataFrame 。 |
DataFrame.intersect (其他)
|
返回一個新的DataFrame 隻有在這種包含行DataFrame 和另一個DataFrame 。 |
DataFrame.intersectAll (其他)
|
返回一個新的DataFrame 包含在這行DataFrame 和另一個DataFrame 同時保留副本。 |
DataFrame.isEmpty ()
|
返回真正的 如果這DataFrame 是空的。 |
DataFrame.isLocal ()
|
返回真正的 如果收集() 和帶() 方法可以在本地運行(沒有任何火花執行人)。 |
DataFrame.isStreaming
|
返回真正的 如果這DataFrame 包含一個或多個源不斷地返回數據,因為它的到來。 |
DataFrame.join (其他(,,))
|
連接與另一個DataFrame ,使用給定的連接表達式。 |
DataFrame.limit (num)
|
限製結果數到指定的號碼。 |
DataFrame.localCheckpoint ((渴望))
|
返回一個局部檢查點的版本DataFrame 。 |
DataFrame.mapInPandas (函數模式)
|
地圖批次在當前的迭代器DataFrame 使用Python的本機函數和輸出一個熊貓DataFrame,並返回結果DataFrame 。 |
DataFrame.mapInArrow (函數模式)
|
地圖批次在當前的迭代器DataFrame 使用Python的本機函數和輸出PyArrow的RecordBatch,並返回結果DataFrame 。 |
DataFrame.na
|
返回一個DataFrameNaFunctions 處理缺失值。 |
DataFrame.observe (觀察、* exprs)
|
定義(命名)DataFrame指標觀察。 |
DataFrame.orderBy (*關口,* * kwargs)
|
返回一個新的DataFrame 按指定的列(s)。 |
DataFrame.persist ([storageLevel])
|
設置存儲水平持續的內容DataFrame 在操作後第一次計算。 |
DataFrame.printSchema ()
|
在樹格式打印模式。 |
DataFrame.randomSplit (重量、種子)
|
隨機將這DataFrame 與所提供的重量。 |
DataFrame.rdd
|
作為一個返回內容pyspark.RDD 的行 。 |
DataFrame.registerTempTable (名字)
|
注冊了這家DataFrame 作為一個臨時表使用給定的名稱。 |
DataFrame.repartition (*關口numPartitions)
|
返回一個新的DataFrame 分區的分區表達式。 |
DataFrame.repartitionByRange (numPartitions…)
|
返回一個新的DataFrame 分區的分區表達式。 |
DataFrame.replace (to_replace[],價值,子集)
|
返回一個新的DataFrame 值替換為另一個值。 |
DataFrame.rollup (*峽路)
|
為當前創建一個多維的彙總DataFrame 使用指定的列,所以我們可以運行聚合。 |
DataFrame.sameSemantics (其他)
|
返回真正的當內部邏輯查詢計劃DataFrame 年代是相等的,因此返回相同的結果。 |
DataFrame.sample ([withReplacement,…)
|
返回一個樣本子集DataFrame 。 |
DataFrame.sampleBy (坳,分數(、種子))
|
返回一個分層抽樣不重複每層基於給出的分數。 |
DataFrame.schema
|
返回的模式DataFrame 作為一個pyspark.sql.types.StructType 。 |
DataFrame.select (*峽路)
|
項目一組表達式並返回一個新的DataFrame 。 |
DataFrame.selectExpr (* expr)
|
項目一組SQL表達式,並返回一個新的DataFrame 。 |
DataFrame.semanticHash ()
|
返回一個散列碼邏輯查詢計劃的反對DataFrame 。 |
DataFrame.show ([n,截斷,垂直])
|
印第n 行到控製台。 |
DataFrame.sort (*關口,* * kwargs)
|
返回一個新的DataFrame 按指定的列(s)。 |
DataFrame.sortWithinPartitions (*關口,* * kwargs)
|
返回一個新的DataFrame 與每個分區按指定的列(s)。 |
DataFrame.sparkSession
|
返回會話創建這個火花DataFrame 。 |
DataFrame.stat
|
返回一個DataFrameStatFunctions 統計功能。 |
DataFrame.storageLevel
|
得到了DataFrame 目前的存儲水平。 |
DataFrame.subtract (其他)
|
返回一個新的DataFrame 包含在這行DataFrame 但不是在另一個DataFrame 。 |
DataFrame.summary (*統計)
|
計算指定的統計數字和字符串列。 |
DataFrame.tail (num)
|
返回最後一個全國礦工工會 行作為一個列表 的行 。 |
DataFrame.take (num)
|
返回第一個全國礦工工會 行作為一個列表 的行 。 |
DataFrame.toDF (*峽路)
|
返回一個新的DataFrame 與新指定的列名 |
DataFrame.toJSON ([use_unicode])
|
轉換DataFrame 成一個抽樣 的字符串。 |
DataFrame.toLocalIterator ([prefetchPartitions])
|
返回一個迭代器,包含所有的行DataFrame 。 |
DataFrame.toPandas ()
|
返回的內容DataFrame 像熊貓pandas.DataFrame 。 |
DataFrame.to_pandas_on_spark ([index_col])
|
|
DataFrame.transform (* args func * * kwargs)
|
返回一個新的DataFrame 。 |
DataFrame.union (其他)
|
返回一個新的DataFrame 在這個和另一個包含的行DataFrame 。 |
DataFrame.unionAll (其他)
|
返回一個新的DataFrame 在這個和另一個包含的行DataFrame 。 |
DataFrame.unionByName (其他[…])
|
返回一個新的DataFrame 在這個和另一個包含的行DataFrame 。 |
DataFrame.unpersist ((阻塞))
|
標誌著DataFrame 非持久性,並刪除所有從內存和磁盤塊。 |
DataFrame.where (條件)
|
在() 是一個別名filter () 。
|
DataFrame.withColumn (colName坳)
|
返回一個新的DataFrame 通過添加一個列或替換現有的列有相同的名字。 |
DataFrame.withColumns (* colsMap)
|
返回一個新的DataFrame 通過添加多個列或替換現有的列有相同的名字。 |
DataFrame.withColumnRenamed (現有的)
|
返回一個新的DataFrame 通過重命名一個已有的列。 |
DataFrame.withMetadata (columnName元數據)
|
返回一個新的DataFrame 通過更新現有列元數據。 |
DataFrame.withWatermark (eventTime…)
|
定義了一個事件時間水印DataFrame 。 |
DataFrame.write
|
界麵保存的內容的非DataFrame 到外部存儲。 |
DataFrame.writeStream
|
界麵保存的內容流DataFrame 到外部存儲。 |
DataFrame.writeTo (表)
|
創建一個為v2消息編寫配置構建器。 |
DataFrame.pandas_api ([index_col])
|
現有DataFrame轉換成pandas-on-Spark DataFrame。 |
DataFrameNaFunctions.drop ([如何顛簸,子集])
|
返回一個新的DataFrame 省略具有零值的行。 |
DataFrameNaFunctions.fill (價值[,]子集)
|
替換空值,別名na.fill () 。 |
DataFrameNaFunctions.replace (to_replace […])
|
返回一個新的DataFrame 值替換為另一個值。 |
DataFrameStatFunctions.approxQuantile (col…)
|
計算的近似數值列的分位數DataFrame 。 |
DataFrameStatFunctions.corr (col1 col2[方法])
|
計算兩列的相關性DataFrame 作為一個雙精度值。 |
DataFrameStatFunctions.cov (col1 col2)
|
計算樣本協方差為給定的列,指定他們的名字,作為一個雙重價值。 |
DataFrameStatFunctions.crosstab (col1 col2)
|
計算兩兩頻率給定的表列。 |
DataFrameStatFunctions.freqItems (關口[支持])
|
發現頻繁項目列,可能與假陽性。 |
DataFrameStatFunctions.sampleBy (坳,分數)
|
返回一個分層抽樣不重複每層基於給出的分數。 |