嗨
我用鑲花的格式來存儲原始數據。實際上一部分文件存儲在S3
我想控製每個拚花一部分文件的文件大小。
我試試這個
sqlContext.setConf (“spark.parquet.block。大小”,SIZE.toString)
sqlContext.setConf (“spark.dfs。blocksize”, SIZE.toString)
但似乎不工作。你能幫我嗎?
試試這個(1.4.0):
val blockSize = 1024 * 1024 * 16 / / 16 mb sc.hadoopConfiguration。setInt (“dfs。sc.hadoopConfiguration blocksize”, blocksize)。setInt (“parquet.block。大小”,blockSize)
在哪裏sc是你SparkContext(不是SQLContext)。
不是,也似乎是“頁麵大小”和“字典頁麵大小”參數,與塊大小;例如,頁麵大小不應超過塊大小。我有它們都具有相同的價值,並讓我通過。
它看起來像火花分配1塊在內存中每鋪分區你輸出,所以如果你正在創建大量的鑲花分區可以迅速達到OutOfMemory錯誤。