取消
顯示的結果
而不是尋找
你的意思是:

我怎樣才能把火花Dataframe分成n = Dataframes(行)?我想獲得這個ID列添加一行,但沒有成功。

NithinTiruveedh
新的貢獻者二世

我有一個dataframe 5 m行。我需要把它分成5 dataframes ~ 1 m行。

這是很簡單的事如果我能創建一個列包含行ID。這有可能嗎?

12個回複12

SiddSingal
新的貢獻者二世

嗨Nithin,

您可以使用DataFrame randomSplit函數。例如:

val df = sc.parallelize(1到10000).toDF(“價值”)val splitDF = df.randomSplit(數組(1,1,1,1,- 1))瓦爾(df1、df2 df3, df4, df5) = (splitDF (0) splitDF (1) splitDF (2), splitDF (3), splitDF (4))

的問題是不準確甚至完全分裂。這可能不是一個大問題,尤其是因為你有很多記錄。這是好的嗎?

Sidd

NithinTiruveedh
新的貢獻者二世

謝謝你Sidd !

JosiahB
新的貢獻者二世

我可以確認這個答案。@Nithin Tiruveedhi,你能接受這個答案,因為你提到它還適合你嗎?它幫助,因為這將這個答案到頂部和表明它解決了你的問題,讓它更明顯,這種解決方案。

sd_hrishi
新的貢獻者二世

我有同樣的要求把200行成相同大小的批(10公裏),但我有一個約束條件,批不得超過10 k行(較小的很好),我的情況能奏效嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map