pyspark.RDD.localCheckpoint

抽樣。 localCheckpoint ( )→沒有

馬克這個抽樣為當地檢查點使用火花現有的緩存層。

該方法的用戶希望截斷抽樣血統而跳過昂貴的複製步驟中的物化數據可靠的分布式文件係統。這是用於抽樣長血統需要截斷定期(例如GraphX)。

當地的檢查點犧牲容錯性能。特別是,檢查點數據寫入臨時本地存儲的執行者,而不是一個可靠的、容錯存儲。效果,如果在計算一個執行人失敗,檢查點數據可能不再是可訪問的,導致出現不工作的失敗。

這不是安全使用動態分配,它消除了執行人連同他們的緩存塊。如果你必須使用這兩個功能,建議您設置spark.dynamicAllocation.cachedExecutorIdleTimeout高價值。

通過設置檢查站的目錄中SparkContext.setCheckpointDir ()是不習慣。