再保險:Pyspark。如何獲得最佳參數網格搜索頁2 -磚- 29167

pmezentsev · ‎07-28-2017

你好!

我在python中使用火花2.1.1

(python 2.7中執行jupyter筆記本)

線性回歸和試圖讓網格搜索參數。

我的代碼是這樣的:

從pyspark.ml。優化進口CrossValidator ParamGridBuilder pyspark。毫升=進口管道管道管道(階段= [sql_transformer、彙編、lr]) paramGrid = ParamGridBuilder () .addGrid (lr)。解算器,[“l-bfgs”、“正常”]).build()求值程序= RegressionEvaluator () crossval = CrossValidator(估計量=管道,estimatorParamMaps = paramGrid numFolds = 3) cvModel = crossval.fit cvModel.avgMetrics(火車)

出[]> [887.3183210064692,787.3183297841774]

我的問題是:我如何能找到,這組參數查詢裝備指標對應?

我如何可以得到參數的最佳訓練模型?

AldySyahdeini · ‎08-26-2018

讓我給你舉個例子。我叫bestModel之後,我將pyspark.ml.recommendation.ALSModel。(這是擬合模型)。我真正想要的是pyspark.ml.recommendation。肌萎縮性側索硬化症,這就是為什麼我不能得到模型中的參數,例如α

shyam_9 · ‎09-12-2019

嗨@pmezentsev,

您可以構建paramgrid vallues不同的參數,然後你會得到最好的使用GridSearchCV參數

param_grid = {“n_estimators”: (200、500、700),“max_features”:[‘汽車’,‘√’,‘log2]},

CV_rfc = GridSearchCV(估計量= rfc, param_grid = param_grid簡曆= 5)

phamyen · ‎05-27-2020

這是一個很好的文章。它給了我很多有用的信息。非常感謝你下載應用程序