11-02-2021上午08:17
你好,
我需要解壓攝取一些文件,但是當我解壓兩次相同的壓縮文件,解壓縮命令不執行:
在我做的文檔:suggesgted
進口urllib urllib.request.urlretrieve (“https://resources.lendingclub.com/LoanStats3a.csv.zip”、“/ tmp / LoanStats3a.csv.zip”)
% sh / tmp / LoanStats3a.csv.zip解壓縮
但當它應用再解壓,命令沒有執行,似乎控製住了在沒有循環。
謝謝你的幫助。
12-15-202105:39我
另一個問題是,dbfs存儲不支持隨機寫(郵政編碼):
不支持隨機寫道。工作負載要求隨機寫道,本地磁盤上執行操作,然後將結果複製到
/ dbfs
來源:https://docs.m.eheci.com/data/databricks-file-system.html local-file-api-limitations
在原帖子查看解決方案
11-02-202108:22我
你好@RantoB!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。
11-02-2021上午08:24
好的。
不,我也有同樣的行為當我usig python api:
zipfile。ZipFile(路徑,“r”)作為zip_ref: zip_ref.extractall (directory_to_extract_to)
11-02-2021上午08:47
如果你要讀的文件與火花,你不需要解壓縮。火花的CSV閱讀器可以讀取壓縮或解壓縮csv。
如果你要使用URL檢索,請記住,它將把文件放在司機而不是DBFS所以你必須移動到分布式文件係統使用火花來閱讀。
11-02-202108:54,我
事實上,我不會閱讀文件,火花在這個階段,我不使用URL檢索,這隻是reproductible例子。
壓縮文件是攝取ADLS代我解壓縮成不同的目錄根據他們的名字。但是當我第二次執行我的腳本,我麵對我上麵描述的問題。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。