取消
顯示的結果
而不是尋找
你的意思是:

我想用磚工人的工作節點上並行運行一個函數

HamzaJosh
新的貢獻者二世

我有一個函數進行api調用。我要並行運行這個函數可以使用磚工人集群並行地運行它。我有試過

與ThreadPoolExecutor執行人():

結果=執行人。船向一邊傾斜的地圖(getspeeddata)

運行函數但這並不利用工人和運行所有的司機。我怎樣使我的函數並行運行?

7回複7

嗨@Hamza喬希,

這裏有一些鏈接,可以幫助您更好地理解如何創建一個udf

HamzaJosh
新的貢獻者二世

你們沒有得到這一點,我讓API調用一個函數,想將結果存儲在一個dataframe。我想要多個進程並行地運行這個任務。

我如何創建一個UDF和使用它dataframe任務反複調用API和儲存JSON在BLOB存儲負載嗎?你給我的例子是讓計算等請盡快通知。

werners1
尊敬的貢獻者三世

我認為我們做得到這一點。但問題是:

如果你想分配工人的工作,你必須使用火花框架。

所以一個UDF是路要走(UDF的火花的一部分)。

純python代碼隻會執行驅動程序。

同時,火花是懶惰的評估,這意味著數據隻是查詢/寫當你申請一個行動。

這是非常重要的。

所以最後你將不得不創建一個UDF。

https://github.com/jamesshocking/Spark-REST-API-UDF-Scala在Scala是一個例子,但同樣的原則適用於pyspark。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map