取消
顯示的結果
而不是尋找
你的意思是:

調用一個python函數(def)磚

pjp94
貢獻者

不知道我缺少一些東西,但運行一個任務之外的python函數運行更快比在一個函數執行相同的任務。有什麼我錯過火花如何處理功能?

1)

def任務(x):

y = dostuff (x)

返回y

2)

y = dostuff (x)

9回複9

Hubert_Dudek1
尊敬的貢獻者三世

它會更容易如果你整個代碼@pjp94分享

UmaMahesh1
尊敬的貢獻者三世

假設你提到dostuff火花sql函數,你可以看看這個線程堆棧溢出和鏈接在同一線程中得到一些主意。

https://stackoverflow.com/questions/38296609/spark-functions-vs-udf-performance

huyd
新的貢獻者三世

如果你能Python udf轉換為sql udf。這些玩好自適應查詢執行和不會有性能損失。

ramravi
因素二世

似乎你使用UDF。UDF火花是昂貴的,因為火花不知道如何優化UDF。更好的避免它們,除非你別無選擇。

謝爾
重視貢獻二世

不要使用python正常功能使用UDF pyspark這樣會更快

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map