再保險:Dataframe寫追加拚花表——部分……頁3 -磚- 30269

RobertWalsh · ‎08-23-2015

你好,

我試圖添加新的json文件到現有表定義在磚拚花。

使用一個數據集定義的這個命令(dataframe最初添加到臨時表):

val輸出= sql(“選擇標題。event_name to_date (from_unixtime (headers.received_timestamp)), dt, from_unixtime (headers.received_timestamp) login_datetime,頭。ip_address,頭。從usersloggedInRaw_tmp acting_user_id”)

我創建的初始表如下:

output.write.format(“鋪”).partitionBy (dt) .saveAsTable (“dev_sessions”)

這個表看起來像下麵的輸出:

如果我嚐試將一個新的json文件附加到現有的dev_session表,使用以下:

output.write.mode(“追加”).format(“鋪”).partitionBy (dt) .saveAsTable (“dev_sessions”)

這就是我所看到的:

數據似乎“轉變”。例如,現在acting_user_id值填充“dt”列,列添加命令中使用分區的數據。

我試過多次這個流,可以複製相同的結果。dataframe.write()中這是一個錯誤,還是我犯了一個錯誤?注意,附加表之前,我檢查磚的“輸出”dataframe通過顯示()命令沒有問題——他們預期的值列。隻有在使用寫命令添加到表中,這個問題似乎發生。

可以提供任何幫助,將真誠的感激。

CliveEvans · ‎11-03-2015

好了。

謝謝。

anil_s_langote · ‎04-20-2016

我們遇到類似的情況我們使用火花1.6.1,我們每天裝載過程中提取數據從oracle和寫成鋪文件,為18天的數據來說,這就做得夠好了(直到18日運行),這個問題之前19運行數據幀負載工作多次被調用,它永遠不會完成,當我們刪除所有分區數據和運行它僅19天工作數據,證明沒有問題。我們如何進行,是禁用的元數據能幫助嗎?如果是的,那麼我們可以遇到問題時,我們有超過500個分區?

磚

Dataframe寫追加拚花表——分區問題