問題
你是監控一個流媒體工作,注意,它似乎被困在處理數據。
檢查日誌時,發現工作卡住當寫入數據到一個檢查站。
信息HDFSBackedStateStoreProvider:刪除文件對於381160歲以上的HDFSStateStoreProvider [id = (op = 0 = 89), dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/89):信息StateStore:檢索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:刪除文件對於381160歲以上的HDFSStateStoreProvider [id = (op = 0,一部分= 37),dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/37):信息StateStore:檢索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:刪除文件對於313920歲以上的HDFSStateStoreProvider [id = (op = 0,一部分= 25),dir = dbfs: / FileStore / PYTHON_CHECKPOINT5 /州/ 0/25):
導致
你想使用一個檢查點位置在當地DBFS路徑。
% = streamingInput.writeStream scala查詢。選項(“checkpointLocation”、“/ FileStore /檢查站”).start ()
解決方案
您應該使用持久存儲為流檢查點。
你不應該使用DBFS流檢查點存儲。