我目前想使用此功能的“觸發工作新文件到達時”我的一個項目。我有一個s3 bucket中,隨機文件到達天。所以我創建了一個工作,並設置觸發“文件到來”類型。在s3的筆記本我試圖讀取位置如下:
df = (spark.read.format (csv) .option (“inferSchema”,真的).option(“標題”,真的).option .load (“9”, ", ") (" s3: / < bucket_name > / <子文件夾> / "))
工作時觸發一個新文件的到來。但是當新文件到它讀取以前的文件。我隻是想讀取新文件,並將它附加到任何現有的表。
有什麼辦法文件名,這樣我可以使用下麵的代碼隻讀取新文件:
file_name = dbutils.widgets.get (“file_name”) df = (spark.read.format (csv) .option (“inferSchema”,真的).option(“標題”,真的).option .load (“9”, ", ") (" s3: / / < bucket_name > / < folder_name > / < file_1.csv >”))
或者有其他方法來解決它。嗎?