安裝一個Apache SparkML模型拋出錯誤

學習如何解決錯誤拋出磚當SparkML模型擬合或管道。

寫的亞當Pavlacka

去年發表在:2022年5月16日

問題

磚拋出一個錯誤當SparkML模型擬合或管道:

org.apache.spark。SparkException:工作階段失敗而終止:任務0階段162.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 162.0 (TID 168、10.205.250.130執行人1):org.apache.spark。SparkException:未能執行用戶定義函數(anonfun 9:美元(字符串)=比;雙)

導致

通常,一個錯誤當SparkML模型擬合或管道問題的訓練數據的結果。

解決方案

檢查下麵的問題:

  1. 識別和解決空值的數據集。火花需要知道如何處理缺失值的數據集。
    • 丟棄行與dropna缺失值()。
    • 轉嫁等價值0或列的平均值。這個解決方案取決於數據集是有意義的。
  2. 確保所有訓練數據是適當地轉換為數字格式。火花需要知道如何處理分類和字符串變量。各種各樣的特征變形金剛可用地址數據具體情況。
  3. 檢查共線性。高度相關,甚至重複特性可能導致模型擬合的問題。這發生在極少數情況下,但你應該確保排除這一可能性。
這篇文章有用嗎?