12-05-202212:53點
不知道我缺少一些東西,但運行一個任務之外的python函數運行更快比在一個函數執行相同的任務。有什麼我錯過火花如何處理功能?
1)
def任務(x):
y = dostuff (x)
返回y
2)
12-05-202203:32點
嗨@pjp,你能提供更多的信息嗎?我不知道有任何機製引發,能有這樣的影響,但也許例子會使社會更容易複製,執行一些基準測試和幫助你。
幹杯
Bartek
12-05-202203:49點
確定。函數查詢外部數據庫(jdbc)以及三角洲表。我不執行任何昂貴的計算——隻是過濾大部分。當印刷的時間戳函數時,我注意到大多數的時間花費在後者(δ表查詢/操作)。我不知道為什麼。我甚至當我查詢緩存表。當我使職能化,結果需要15分鍾,如果我運行之外的一個函數,它需要3分鍾。
12-06-202201:22我
UDF更昂貴的火花
這可能是其原因
12-06-202202:04我
是的,有Python和Scala之間的性能差異,不過,@Paras Patel看到使用Python在這兩種情況下的性能損失
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。