取消
顯示的結果
而不是尋找
你的意思是:

collect_list基於另一個變量保存訂單-火花SQL

康斯坦丁
貢獻者三世

我使用磚sql筆記本運行這些查詢。

我有一個Python UDF

%從pyspark.sql python。函數從pyspark.sql進口udf。類型進口StringType、倍增式DateType def get_sell_price (sale_prices):返回sale_price [0] spark.udf。注冊(“get_sell_price”、get_sell_price倍增式())

這是運行在一個查詢

選擇id, get_sell_price (sell_price)從table_name組id按日期順序;

我想要“collect_list”內的銷售價格進行排序根據指定的列,但即使我查詢中提到它,它仍然不能維持秩序

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

@John康斯坦丁,我認為你想使用窗口函數對於這個。

在原帖子查看解決方案

3回複3

Hubert_Dudek1
尊敬的貢獻者三世

@John君士坦丁“函數是不確定的,因為訂單收集的結果取決於訂單的行洗牌後可能是不確定的。”https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.collect_list.htm..。

在生產中通常使用collect_list並不是最好的解決方案。通常情況下,還有其他方法來實現所需要的。

werners1
尊敬的貢獻者三世

@John康斯坦丁,我認為你想使用窗口函數對於這個。

Kaniz
社區經理
社區經理

嗨@John君士坦丁,隻是一個友好的後續。你還需要幫助或者做上麵的回答幫助你找到解決方案了嗎?請讓我們知道。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map