取消
顯示的結果
而不是尋找
你的意思是:

限製並行當外部api調用(即mlflow)

Edmondo
新的貢獻者三世

我們應用groupby pyspark.sql操作。Dataframe然後mlflow每組火車上一個模型。我們看到間歇性故障,因為MLFlow服務器回複429,因為太多的請求/ s

有哪些最佳實踐在這些情況下,你如何限製即將離任的調用外部服務嗎?我們使用托管MLFlow磚,有沒有一種方法,我們可以配置MLFlow,隊列後續請求將它們發送到服務器之前?

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

至少在Azure MLFlow每個工作空間的限製相當嚴格:

  • 低吞吐量實驗管理(列表、更新、刪除、恢複):7每秒
  • 搜索:7每秒
  • 日誌批量:47每秒
  • 所有其他api: 127每秒

每秒每秒——查詢。此外,有限製的並發模型版本在20等待狀態(每個工作區創建)。另外429自動重試。

每組並行模型訓練嗎?也許不是平行隻是一組訓練,監控執行器的使用可以接近100%,可以花同樣的時間。

在原帖子查看解決方案

11日回複11

Hubert_Dudek1
尊敬的貢獻者三世

至少在Azure MLFlow每個工作空間的限製相當嚴格:

  • 低吞吐量實驗管理(列表、更新、刪除、恢複):7每秒
  • 搜索:7每秒
  • 日誌批量:47每秒
  • 所有其他api: 127每秒

每秒每秒——查詢。此外,有限製的並發模型版本在20等待狀態(每個工作區創建)。另外429自動重試。

每組並行模型訓練嗎?也許不是平行隻是一組訓練,監控執行器的使用可以接近100%,可以花同樣的時間。

Edmondo
新的貢獻者三世

謝謝,文檔AWS的限製是一樣的(我有檢查)。有三個選擇:

  • udf可以應用在7點最大並行(怎麼做?)
  • mlflow調用必須排隊(再一次,我怎麼添加一個有狀態的所有集群節點的隊列嗎?)
  • 或者我可以用某種鎖定/協調機製(有什麼活動或者我應該建立一個動物園管理員實例?)

謝謝

匿名
不適用

@Edmondo Porcu -我的名字叫風笛手,我是主持人磚。我很抱歉這麼長時間才給我答複。我們正在尋找最好的人來幫助你。

Kaniz
社區經理
社區經理

嗨Porcu @Edmondo, 429是一個HTTP響應狀態碼表明客戶端應用程序已超過速度限製或者他們可以發送請求的數量在給定的一段時間。

請通過這些類似的線程:-

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map