再保險:從excel在datalake存儲提取數據…-磚- 2999

vanessafvg · ‎06-15-2023

我想要一些數據提取到磚openpyxl但跳閘,磚的新用戶。

從openpyxl進口load_workbook

directory_id =“隱藏”

範圍=“隱藏”

client_id =“隱藏”

service_credential_key =“隱藏”

container_name =“隱藏”

storage_account =“隱藏”

application_id = dbutils.secrets。得到(範圍=範圍、關鍵= client_id)

service_credential = dbutils.secrets。得到(範圍=範圍、關鍵= service_credential_key)

“abfss adls_path = f: / / {container_name} @ {storage_account}.dfs.core.windows.net/”

火花。sql(“設置spark.databricks.delta.optimizeWrite.enabled = True”)

項目=“隱藏/隱藏/”

路徑= f”abfss: / / {container_name} @ {storage_account}.dfs.core.windows.net/”

raw_path = f“{路徑}生/{項目}”

raw_schema_path = f“{raw_path} /模式/”

bronze_path = f“{路徑}青銅/{項目}”

silver_path = f“銀{path} /{項目}”

gold_path = f”{路徑}/{項目}”

temp_path = f”{path}{}項目”

打印(temp_path)

dbutils.fs.ls (temp_path)

用戶= load_workbook (f“{temp_path} staff.xlsx”)

FileNotFoundError (Errno 2):沒有這樣的文件或目錄:“隱藏”

它確實存在,鏈接是正確的,但不理解為什麼不挑選。如果我把它轉換成csv和使用

用戶= spark.read.format (csv) .options(* *{“9”:“,”,“標題”:真的,“inferSchema”:真正}).load (f“{temp_path} staff.csv”)

這沒問題,但盡量避免額外的跳。然而使用excel似乎有點痛苦。相當新的磚所以可能缺少明顯的東西。

匿名 · ‎06-17-2023

嗨@Vanessa凡德

很高興認識你,謝謝你的問題!

看看你的同行在社區中有一個回答你的問題。謝謝。

磚