12-05-202212:53點
不知道我缺少一些東西,但運行一個任務之外的python函數運行更快比在一個函數執行相同的任務。有什麼我錯過火花如何處理功能?
1)
def任務(x):
y = dostuff (x)
返回y
2)
12-06-202203:06我
它會更容易如果你整個代碼@pjp94分享
12-06-202204:40我
假設你提到dostuff火花sql函數,你可以看看這個線程堆棧溢出和鏈接在同一線程中得到一些主意。
https://stackoverflow.com/questions/38296609/spark-functions-vs-udf-performance
12-29-202202:51點
如果你能Python udf轉換為sql udf。這些玩好自適應查詢執行和不會有性能損失。
01-02-202306:07我
似乎你使用UDF。UDF火花是昂貴的,因為火花不知道如何優化UDF。更好的避免它們,除非你別無選擇。
01-05-2023晚上10:30
不要使用python正常功能使用UDF pyspark這樣會更快
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。