如何執行組K-fold交叉驗證與Apache火花

學習如何執行組K-fold交叉驗證與Apache火花磚。

寫的亞當Pavlacka

去年發表在:2023年2月24日

交叉驗證隨機分割訓練數據到指定數量的折疊。為了防止數據泄漏,相同的數據出現在多個折疊可以使用組。scikit-learn支持組K-fold交叉驗證確保折疊是獨特的和非重疊。

在火花可以使用spark-sklearn庫,它分配優化的scikit-learn模型利用這種方法。這個例子的曲調scikit-learn隨機森林模型的組k-fold方法引發的grp變量:

%從sklearn python。整體進口RandomForestClassifier spark_sklearn從sklearn進口GridSearchCV。model_selection進口GroupKFold param_grid = {" max_depth”:[8、12、沒有],“max_features”: 1、3、10],“min_samples_split”: 1、3、10],“min_samples_leaf”: 1、3、10],“引導”:真的,假的,“標準”:“基尼”、“熵”,“n_estimators”: [20、40、80]} group_kfold = GroupKFold (n_splits = 3) g = GridSearchCV (sc,估計量= RandomForestClassifier (random_state = 42), param_grid = param_grid簡曆= group_kfold) gs。適合(X1, y1, grp)
刪除

信息

  • 圖書館是用來運行網格搜索spark-sklearn在火花,所以你必須通過上下文(sc參數)。
  • X1日元參數必須是熊貓DataFrames。這個網格搜索選項隻適用於數據符合的司機。


這篇文章有用嗎?