你好,
我有一個在DataFrame DataFrame和應用不同的轉換。我想顯示DataFrame幾轉換後檢查結果。
然而,根據參考e我試圖顯示結果,它運行的執行計劃。提出了一個解決方案的參考保存DataFrame然後加載它。然而,這種解決方案不能應用到我工作的平台。Beplay体育安卓版本
還有其他解決方案顯示結果幾次在一個沒有重新執行邏輯的筆記本嗎?
為此我可以用.cache()如下:
由於DataFrame的名稱將會改變在下一行,下麵我重複一遍:
是的,有必要保存DataFrame到一個新的變量如果您想要使用緩存顯示DataFrame。這是因為緩存DataFrame會導致它不丟失任何數據可以來自額外的過濾器添加緩存DataFrame之上,和被緩存的數據可能不會更新如果訪問表使用一個不同的標識符。因此,建議分配引發的結果轉換回一個SparkDataFrame變量,類似於如何使用公共表表達式(cte),臨時觀點,或者DataFrames在其他係統中。
是的,有必要保存DataFrame到一個新的變量如果您想要使用緩存顯示DataFrame。這是因為緩存DataFrame會導致它不丟失任何數據可以來自額外的過濾器添加緩存DataFrame之上,和被緩存的數據可能不會更新如果訪問表使用一個不同的標識符。因此,建議分配引發的結果轉換回一個SparkDataFrame變量,類似於如何使用公共表表達式(cte),臨時觀點,或者DataFrames在其他係統中。
謝謝你的幫助。
恐怕我不明白為什麼它是必要的。
這是因為緩存DataFrame會導致它不丟失任何數據可以來自額外的過濾器添加緩存DataFrame之上,
注意,當df是緩存,它立即顯示。
然後,更多的轉換是應用於“df”和結果保存在“df_new”這對顯示緩存的目的:
和被緩存的數據可能不會更新如果訪問表使用一個不同的標識符。
對不起,我不明白這一部分,“如果訪問表使用一個不同的標識符”。
因此,建議分配引發的結果轉換回一個SparkDataFrame變量,類似於如何使用公共表表達式(cte),臨時觀點,或者DataFrames在其他係統中。
它是在筆記本上完成的。我們分配的結果轉換到一個新的DataFrame緩存使用或不是。
磚有參考文獻在這方麵嗎?