取消
顯示的結果
而不是尋找
你的意思是:

如何調試和“pathGlobFilter”選項產生空dataframe自動裝卸機嗎

雙相障礙
新的貢獻者三世

當我試著設置“pathGlobFilter”自動裝卸機工作,它似乎過濾掉一切。

桶/目錄設置

“s3a: / / my_bucket / level_1_dir / level_2_dir / < some_name > /一/二/ < the_files_i_want_to_load > '

所以我想要的是能夠提供一個列表的名稱來加載數據。這些目錄都將共享相同的子目錄結構,和所有的文件(可能有任意擴展和命名約定)將兩個目錄下。

以下是我目前最好的嚐試加載這些目錄的內容。我隻是想每個文件的全部內容加載到單個列在我dataframe——這一部分工作沒有過濾器。

' ' '

MY_S3_PATH = " s3a: / / my_bucket / level_1_dir level_2_dir /”

名稱=[“愛麗絲”、“bob”、“馬洛裏”)

模式= f”/ {{{', ' . join(名)}}}/一/二/ *”

流= (

spark.readStream.format (“cloudFiles”)

. schema (StructType ([StructField(“價值”,StringType(),真的))))

.option (“cloudFiles。格式”、“文本”)

.option (“wholeText”,真的)

.option (“cloudFiles.fetchParallelism”,:smiling_face_with_sunglasses:

include_patterns .option (“pathGlobFilter”)

)

stream.load .writeStream (MY_S3_PATH)。選項(queryName my_loader_query) .trigger (availableNow = True) .toTable (my_table)

' ' '

當我運行,流初始化和運行,但沒有數據處理。它似乎是過濾掉一切(當我刪除過濾器,文件加載像我期望)。

我尋找一個解決,但也理解我在哪裏可以尋找什麼實際上是被發現/過濾信息。

1接受解決方案

接受的解決方案

雙相障礙
新的貢獻者三世

實際上的工作對我來說是跳過“pathGlobFilter”和“負載”這樣做過濾調用:“stream.load (f“{MY_S3_PATH} {include_patterns}”)。

這部分的文檔可以使用一些編輯,國際海事組織。

在原帖子查看解決方案

1回複1

雙相障礙
新的貢獻者三世

實際上的工作對我來說是跳過“pathGlobFilter”和“負載”這樣做過濾調用:“stream.load (f“{MY_S3_PATH} {include_patterns}”)。

這部分的文檔可以使用一些編輯,國際海事組織。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map