流工作卡住寫作檢查點

流工作似乎卡住了即使沒有錯誤。您正在使用DBFS檢查點存儲,但它已經填滿了。

寫的何塞·岡薩雷斯

去年發表在:2022年5月19日

問題

你是監控一個流媒體工作,注意,它似乎被困在處理數據。

檢查日誌時,發現工作卡住當寫入數據到一個檢查站。

信息HDFSBackedStateStoreProvider:刪除文件對於381160歲以上的HDFSStateStoreProvider [id = (op = 0 = 89), dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/89):信息StateStore:檢索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:刪除文件對於381160歲以上的HDFSStateStoreProvider [id = (op = 0,一部分= 37),dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/37):信息StateStore:檢索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:刪除文件對於313920歲以上的HDFSStateStoreProvider [id = (op = 0,一部分= 25),dir = dbfs: / FileStore / PYTHON_CHECKPOINT5 /州/ 0/25):

導致

你想使用一個檢查點位置在當地DBFS路徑。

% = streamingInput.writeStream scala查詢。選項(“checkpointLocation”、“/ FileStore /檢查站”).start ()

解決方案

您應該使用持久存儲為流檢查點。

你不應該使用DBFS流檢查點存儲。

這篇文章有用嗎?