Hyperparameter調優的Apache SparkML模型需要很長時間,這取決於網格的尺寸參數。你可以提高性能的交叉驗證步驟SparkML加快速度:
- 緩存數據之前運行任何特性轉換或建模的步驟,包括交叉驗證。多次過程參考數據從緩存中獲益。記得要調用一個操作DataFrame緩存的效果。
- 增加內部的並行性參數CrossValidator,並行算法運行時使用的線程數量。默認設置為1。有關更多信息,請參見CrossValidator文檔。
- 不要使用管道內的估計量CrossValidator規範。在某些情況下,featurizers被調諧以及模型,整個管道內運行CrossValidator是有意義的。然而,這種執行整個管道為每個參數組合和褶皺。因此,如果隻調整模型,設置模型規範內的估計量CrossValidator。