解決:Re: collect_list基於anot維持秩序……-磚- 11521

康斯坦丁 · ‎11-04-2021

我使用磚sql筆記本運行這些查詢。

我有一個Python UDF

%從pyspark.sql python。函數從pyspark.sql進口udf。類型進口StringType、倍增式DateType def get_sell_price (sale_prices):返回sale_price [0] spark.udf。注冊(“get_sell_price”、get_sell_price倍增式())

這是運行在一個查詢

選擇id, get_sell_price (sell_price)從table_name組id按日期順序;

我想要“collect_list”內的銷售價格進行排序根據指定的列,但即使我查詢中提到它,它仍然不能維持秩序

werners1 · ‎11-05-2021

@John康斯坦丁,我認為你想使用窗口函數對於這個。

在原帖子查看解決方案

Hubert_Dudek1 · ‎11-04-2021

@John君士坦丁“函數是不確定的,因為訂單收集的結果取決於訂單的行洗牌後可能是不確定的。”https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.collect_list.htm..。

在生產中通常使用collect_list並不是最好的解決方案。通常情況下,還有其他方法來實現所需要的。

werners1 · ‎11-05-2021

@John康斯坦丁,我認為你想使用窗口函數對於這個。

Kaniz · ‎05-23-2022

嗨@John君士坦丁,隻是一個友好的後續。你還需要幫助或者做上麵的回答幫助你找到解決方案了嗎?請讓我們知道。

磚

collect_list基於另一個變量保存訂單-火花SQL