07-22-201501:15點
你好,
我需要一些引導線的性能問題,鑲花的文件:
我加載一組檢查機關文件使用:df = sqlContext。parquetFile (folder_path)
我的拚花文件夾6分部門的鑰匙
它最初的首樣數據這樣所以我盯著促使更多的組織和性能正在放緩很快就像我這樣做
因為數據到達上麵的文件夾分區的每一天都是“自然”,但它會導致外商投資小,我閱讀是一個瓶頸的解釋
我合並的幾個子文件夾在第二階段?如果那麼函數(python API)我使用嗎?
07-16-201712:22點
嗨,普拉卡什,
我試圖轉移鋪文件從hadoop prem S3,我能移動時正常HDFS文件但拚花它不正常工作。
你有線索我們如何拚花從HDFS文件轉移到S3嗎?
感謝你的回應。
謝謝
伊珊
08-26-2019十一25點
我有多個小拚花所有分區中的文件,這是遺留數據,想要合並的文件在單個分區目錄單文件。我們怎樣才能實現這一目標。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。