我有一個函數是使用“cloudFiles”來源從s3流文件內容。其配置是這樣的:
' ' '
流= (
spark.readStream.format (“cloudFiles”)
.option (“cloudFiles。格式”、“文本”)
.option (“cloudFiles。schemaLocation”, MY_CHECKPOINT_PATH)
.option (“wholeText”,真的)
.option (“cloudFiles.fetchParallelism”,
.option (“cloudFiles。pathGlobFilter”、“* /子目錄/ *”)
.load (MY_S3_PATH)
)
' ' '
根據自動裝卸機文檔,這是一個有效的選擇,但當我在筆記本上運行這個DBR 11.3 LTS個人集群中,我得到了“CloudFilesIllegalArgumentException:發現未知選項鍵:cloudFiles.pathglobfilter”
這是在一個AWS部署磚。我也試過12.2集群上運行,與相同的結果。我也嚐試過許多不同的版本的水珠過濾模式本身,都無濟於事。這是最簡單的一個(我的用例需要逗號分隔字符串的選擇之類的)。