取消
顯示的結果
而不是尋找
你的意思是:

鑲木地板文件合並或其他優化技巧

xxMathieuxxZara
新的因素

你好,

我需要一些引導線的性能問題,鑲花的文件:

我加載一組檢查機關文件使用:df = sqlContext。parquetFile (folder_path)

我的拚花文件夾6分部門的鑰匙

它最初的首樣數據這樣所以我盯著促使更多的組織和性能正在放緩很快就像我這樣做

因為數據到達上麵的文件夾分區的每一天都是“自然”,但它會導致外商投資小,我閱讀是一個瓶頸的解釋

我合並的幾個子文件夾在第二階段?如果那麼函數(python API)我使用嗎?

6個回答6

ishangaur
新的貢獻者二世

嗨,普拉卡什,

我試圖轉移鋪文件從hadoop prem S3,我能移動時正常HDFS文件但拚花它不正常工作。

你有線索我們如何拚花從HDFS文件轉移到S3嗎?

感謝你的回應。

謝謝

伊珊

匿名
不適用

我有多個小拚花所有分區中的文件,這是遺留數據,想要合並的文件在單個分區目錄單文件。我們怎樣才能實現這一目標。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map