取消
顯示的結果
而不是尋找
你的意思是:

Dataframe寫追加拚花表——分區問題

RobertWalsh
新的貢獻者二世

你好,

我試圖添加新的json文件到現有表定義在磚拚花。

使用一個數據集定義的這個命令(dataframe最初添加到臨時表):

val輸出= sql(“選擇標題。event_name to_date (from_unixtime (headers.received_timestamp)), dt, from_unixtime (headers.received_timestamp) login_datetime,頭。ip_address,頭。從usersloggedInRaw_tmp acting_user_id”)

我創建的初始表如下:

output.write.format(“鋪”).partitionBy (dt) .saveAsTable (“dev_sessions”)

這個表看起來像下麵的輸出:

0693年f000007oojyaa0

如果我嚐試將一個新的json文件附加到現有的dev_session表,使用以下:

output.write.mode(“追加”).format(“鋪”).partitionBy (dt) .saveAsTable (“dev_sessions”)

這就是我所看到的:

0693年f000007oojzaa0

數據似乎“轉變”。例如,現在acting_user_id值填充“dt”列,列添加命令中使用分區的數據。

我試過多次這個流,可以複製相同的結果。dataframe.write()中這是一個錯誤,還是我犯了一個錯誤?注意,附加表之前,我檢查磚的“輸出”dataframe通過顯示()命令沒有問題——他們預期的值列。隻有在使用寫命令添加到表中,這個問題似乎發生。

可以提供任何幫助,將真誠的感激。

11日回複11

User16765128951
因素二世

謝謝,克萊夫-我可以複製同樣的問題我提出錯誤磚開源的團隊看一看。

CliveEvans
新的貢獻者三世

謝謝。現在我已經解決了。

你能給我一個鏈接到錯誤嗎?

User16765128951
因素二世

我不確定我們的內部JIRA訪問外部。但是這裏的鏈接:

https://databricks.atlassian.net/browse/sc - 1029

CliveEvans
新的貢獻者三世

我看不到它,但是謝謝。

User16765128951
因素二世

現在有一個公關與解決辦法:

https://github.com/apache/spark/pull/9408/files

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map