取消
顯示的結果
而不是尋找
你的意思是:

如何設置拚花輸出文件的大小?

richard1_558848
新的貢獻者二世

我用鑲花的格式來存儲原始數據。實際上一部分文件存儲在S3

我想控製每個拚花一部分文件的文件大小。

我試試這個

sqlContext.setConf (“spark.parquet.block。大小”,SIZE.toString)

sqlContext.setConf (“spark.dfs。blocksize”, SIZE.toString)

但似乎不工作。你能幫我嗎?

3回複3

richard1_558848
新的貢獻者二世

任何信息嗎?

__rake
新的貢獻者二世

試試這個(1.4.0):

val blockSize = 1024 * 1024 * 16 / / 16 mb sc.hadoopConfiguration。setInt (“dfs。sc.hadoopConfiguration blocksize”, blocksize)。setInt (“parquet.block。大小”,blockSize)

在哪裏sc是你SparkContext(不是SQLContext)。

不是,也似乎是“頁麵大小”和“字典頁麵大小”參數,與塊大小;例如,頁麵大小不應超過塊大小。我有它們都具有相同的價值,並讓我通過。

它看起來像火花分配1塊在內存中每鋪分區你輸出,所以如果你正在創建大量的鑲花分區可以迅速達到OutOfMemory錯誤。

manjeet_chandho
新的貢獻者二世

嗨,誰能告訴我什麼是默認生組通過SparkSql大小而寫作

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map