可以使用pathGlobfilter @Stephanie裏維拉,但你需要一個單獨的自動裝卸機哪種類型的文件。
df_alert = spark.readStream.format \ (“cloudFiles”)
.option (“cloudFiles。形式at", "binaryFile") \
.option \ (“pathGlobfilter”, alert.csv”)
.load (< base_path >)
我想我更喜歡先設置一些副本活動(例如在Azure數據工廠,)文件在同一個文件夾中所有數據分組的湖。例如,警報。csv複製到警報文件夾並更名為迄今為止,所以警報/ 2022-04-08。csv(或者拚花相反)。文件夾我將登記在磚metastore所以它將可查詢SELECT * FROM警報、生活表或數據轉換。然後,在複製活動Azure數據工廠,你可以設置它隻檢測新文件並複製它們。
可以使用pathGlobfilter @Stephanie裏維拉,但你需要一個單獨的自動裝卸機哪種類型的文件。
df_alert = spark.readStream.format \ (“cloudFiles”)
.option (“cloudFiles。形式at", "binaryFile") \
.option \ (“pathGlobfilter”, alert.csv”)
.load (< base_path >)
我想我更喜歡先設置一些副本活動(例如在Azure數據工廠,)文件在同一個文件夾中所有數據分組的湖。例如,警報。csv複製到警報文件夾並更名為迄今為止,所以警報/ 2022-04-08。csv(或者拚花相反)。文件夾我將登記在磚metastore所以它將可查詢SELECT * FROM警報、生活表或數據轉換。然後,在複製活動Azure數據工廠,你可以設置它隻檢測新文件並複製它們。