我有一個dataframe 5 m行。我需要把它分成5 dataframes ~ 1 m行。
這是很簡單的事如果我能創建一個列包含行ID。這有可能嗎?
嗨Nithin,
您可以使用DataFrame randomSplit函數。例如:
val df = sc.parallelize(1到10000).toDF(“價值”)val splitDF = df.randomSplit(數組(1,1,1,1,- 1))瓦爾(df1、df2 df3, df4, df5) = (splitDF (0) splitDF (1) splitDF (2), splitDF (3), splitDF (4))
的問題是不準確甚至完全分裂。這可能不是一個大問題,尤其是因為你有很多記錄。這是好的嗎?
Sidd
謝謝你Sidd !