Re:如何設置拚花輸出文件的大小?-磚- 30478

richard1_558848 · ‎05-19-2015

嗨

我用鑲花的格式來存儲原始數據。實際上一部分文件存儲在S3

我想控製每個拚花一部分文件的文件大小。

我試試這個

sqlContext.setConf (“spark.parquet.block。大小”,SIZE.toString)

sqlContext.setConf (“spark.dfs。blocksize”, SIZE.toString)

但似乎不工作。你能幫我嗎?

richard1_558848 · ‎05-20-2015

任何信息嗎?

__rake · ‎06-30-2015

試試這個(1.4.0):

val blockSize = 1024 * 1024 * 16 / / 16 mb sc.hadoopConfiguration。setInt (“dfs。sc.hadoopConfiguration blocksize”, blocksize)。setInt (“parquet.block。大小”,blockSize)

在哪裏sc是你SparkContext(不是SQLContext)。

不是,也似乎是“頁麵大小”和“字典頁麵大小”參數,與塊大小;例如,頁麵大小不應超過塊大小。我有它們都具有相同的價值,並讓我通過。

它看起來像火花分配1塊在內存中每鋪分區你輸出,所以如果你正在創建大量的鑲花分區可以迅速達到OutOfMemory錯誤。

manjeet_chandho · ‎01-04-2017

嗨,誰能告訴我什麼是默認生組通過SparkSql大小而寫作