udf必要應用模型從ML自由…-磚- 10737

鐵砧 · ‎01-24-2023

你好,

我最近完成了“與apache火花可擴展的機器學習”課程,看到快SKLearn模型可以應用在一個分布式的方式與mapInPandas熊貓udf或使用()方法。

火花MLlib模型不需要這種重構,因為它們是由分布式執行,但我想知道這種UDF是必要TensorFlow等其他庫,PyTorch,寬大的,Keras等等。

謝謝你!

Hubert_Dudek1 · ‎01-25-2023

MlLib是在維護模型。目前,火花ML主要使用。創建模型在大多數情況下沒有使用udf//m.eheci.com/spark/getting-started-with-apache-spark/machine-learning,但無論如何,UDF通常是運行在一個分布式的方式。例如,當你添加數據表,您可以使用注冊使用UDF運行預測模型(即使在一個實時流):

進口mlflow預測= mlflow.pyfunc。spark_udf(火花,model_uri = f“運行:/ {run_id} /模式”)predDF = testDF。withColumn(“預測”,預測(* testDF.columns))

Devarsh · ‎01-31-2023

udf並不一定需要申請從ML圖書館規模模型,但他們可以提供一些好處的性能和易用性。

當使用其他庫,如TensorFlow PyTorch,寬大的,Keras,等等,他們不默認為分布式處理優化。在這種情況下,使用udf或mapInPandas()方法可以提供一個規模模型的有效途徑,通過並行處理跨集群的火花。

無論如何,它最終取決於項目的特定需求。

Manoj12421 · ‎02-08-2023

MlLib在維護模型和不使用udf創建模型在大多數情況下

磚

udf必要申請從ML圖書館規模模型?