10-27-202103:27點
我有一個函數進行api調用。我要並行運行這個函數可以使用磚工人集群並行地運行它。我有試過
與ThreadPoolExecutor執行人():
結果=執行人。船向一邊傾斜的地圖(getspeeddata)
運行函數但這並不利用工人和運行所有的司機。我怎樣使我的函數並行運行?
10-29-202105:12點
嗨@Hamza喬希,
這裏有一些鏈接,可以幫助您更好地理解如何創建一個udf
11-01-202106:49我
你們沒有得到這一點,我讓API調用一個函數,想將結果存儲在一個dataframe。我想要多個進程並行地運行這個任務。
我如何創建一個UDF和使用它dataframe任務反複調用API和儲存JSON在BLOB存儲負載嗎?你給我的例子是讓計算等請盡快通知。
11-02-2021上午01:33
我認為我們做得到這一點。但問題是:
如果你想分配工人的工作,你必須使用火花框架。
所以一個UDF是路要走(UDF的火花的一部分)。
純python代碼隻會執行驅動程序。
同時,火花是懶惰的評估,這意味著數據隻是查詢/寫當你申請一個行動。
這是非常重要的。
所以最後你將不得不創建一個UDF。
https://github.com/jamesshocking/Spark-REST-API-UDF-Scala在Scala是一個例子,但同樣的原則適用於pyspark。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。