我有一個dataframe 5 m行。我需要把它分成5 dataframes ~ 1 m行。
這是很簡單的事如果我能創建一個列包含行ID。這有可能嗎?
@Nithin Tiruveedhi請嚐試如下。下麵是一個例子的單詞計數邏輯。
val tmpTable1 = sqlContext。sql(“選擇row_number()(按計數)rnk,詞,從wordcount數”)
tmpTable1.registertempTable (“wordcount_rownum”)
sqlContext.cacheTable (“wordcount_rownum”)
val df1 = sql(”選擇從wordcount_rownum rnk < = 1000000”)
val df2 = sql(”選擇
1000001和1000001之間從wordcount_rowum rnk”)
val df3 = sql (“select * from wordcount_rowum rnk 2000001和3000000”之間)
val df4 = sql (“select * from wordcount_rowum rnk 3000001和4000000”之間)
val df5 = sql (“select * from wordcount_rowum rnk 4000001和5000000”之間)
希望這個有幫助。
謝謝你Giri !