兩個星期前
親愛的磚社區,
我執行連續三個“附加”寫入一個三角洲表,而第一個附加創建表。每個附加包含兩行,命令列“id”(見附件中的示例截圖)。當我讀到dataframe畢竟添加完成,命令行對列“id”按照以下順序:“1、2、5、6、3、4”。我的期望是“1、2、3、4、5、6”,作為原始數據已經被“id”,命令和三角洲的附加表發生的“1、2”、“3、4”,“5、6”。
預計這種行為?
有辦法獲得相同的順序在讀取的數據已經被添加到表?
非常感謝你的考慮和幫助。
@alloc
從三角洲表獲取數據時,順序不是維護的數據獲取相比。這是一個預期的場景。如果你想顯示數據在一定秩序,它是建議查詢的數據與訂單或by子句。
在原帖子查看解決方案
添加Lakshay的答案,你必須重寫你的查詢
從pyspark.sql。功能導入df.orderBy上校(坳(" id ")),告訴()
一個星期前
非常感謝@Lakshay和@Tharun-Kumar對你有價值的貢獻!
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。