取消
顯示的結果
而不是尋找
你的意思是:

我怎樣才能把火花Dataframe分成n = Dataframes(行)?我想獲得這個ID列添加一行,但沒有成功。

NithinTiruveedh”id=
新的貢獻者二世

我有一個dataframe 5 m行。我需要把它分成5 dataframes ~ 1 m行。

這是很簡單的事如果我能創建一個列包含行ID。這有可能嗎?

12個回複12

girivaratharaja”id=
新的貢獻者三世

@Nithin Tiruveedhi請嚐試如下。下麵是一個例子的單詞計數邏輯。

val tmpTable1 = sqlContext。sql(“選擇row_number()(按計數)rnk,詞,從wordcount數”)

tmpTable1.registertempTable (“wordcount_rownum”)

sqlContext.cacheTable (“wordcount_rownum”)

val df1 = sql(”選擇從wordcount_rownum rnk < = 1000000”)

val df2 = sql(”選擇

1000001和1000001之間從wordcount_rowum rnk”)

val df3 = sql (“select * from wordcount_rowum rnk 2000001和3000000”之間)

val df4 = sql (“select * from wordcount_rowum rnk 3000001和4000000”之間)

val df5 = sql (“select * from wordcount_rowum rnk 4000001和5000000”之間)

希望這個有幫助。

謝謝你Giri !

sd_hrishi”id=
新的貢獻者二世

@girivaratharajan

謝謝你的回答,我有同樣的要求,但我有一定的查詢你的答案。如何row_number內部工作特別/(按計數)”。將它將所有行司機執行人(不會有效的巨大的數據)?和在你的答案,會的row_number生產嚴格的汽車數量增加。

它會與200記錄正確嗎?請幫助。

OccasionalVisit”id=
新的貢獻者二世

我怎麼能把它基於列。假設我有100列。我想要打破原來的DF分成5 DF每20列

JosiahB”id=
新的貢獻者二世

不要問問題回答一個問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map