取消
顯示的結果
而不是尋找
你的意思是:

何時使用緩存和檢查站嗎?

User16752240150
新的貢獻者二世

我看過.cache()和.checkpoint()使用同樣在一些工作流我遇到。有什麼區別,當我應該用一種嗎?

1回複1

Srikanth_Gupta_
價值貢獻

緩存比檢查點當你有很多非常有用的可用內存來存儲你的抽樣或Dataframes如果他們是巨大的。

緩存將保持你的轉換,這些轉換的結果將不會再重新計算額外的轉換應用於抽樣或Dataframe時,當你應用緩存火花商店轉換應用的曆史,重新計算他們在內存不足的情況下,但當你使用檢查點火花扔掉你所有的轉換和存儲最後Dataframe HDFS永遠。檢查點的主要問題是將數據存儲到HDFS低於緩存。您還需要設置檢查點位置在HDFS。堅持(StorageLevel.DISK_ONLY)也有類似的東西但它存儲你的轉換的曆史。檢查點主要用於跨多個批次狀態轉換結合數據。在這種轉換,生成的抽樣取決於抽樣之前的批次,導致附屬關係鏈的長度隨著時間不斷增加。為了避免這種無限增加恢複時間

檢查點也用於流媒體應用程序存儲元數據從失敗中恢複過來。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map