取消
顯示的結果
而不是尋找
你的意思是:

我必須讀沒有解壓縮使用火花csv文件。誰能請提供pyspark /火花sql代碼嗎?

Jitu
新的貢獻者二世

接收到s3原始層壓縮csv文件。

6個回答6

Bartek
貢獻者

一個解決方案——你可以使用舊好的熊貓“read_csv”方法讀取. zip (https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html # pandas.read_csv)

熊貓作為pd simple_csv_zipped = pd.read_csv導入(“/ dbfs / FileStore / simple_file.zip”)

仍然有一個免責聲明:“如果使用“郵政”或“焦油”,zip文件必須隻包含一個數據文件讀入。”

也有明顯的權衡:使用熊貓意味著沒有分布,沒有可伸縮性和暴露在伯父的錯誤——但也許在您的特定情況下,是可以接受的

Chaitanya_Raju
尊敬的貢獻者

@Jog Giri我最近也遇到類似的情況,以下代碼解決了我的目的,沒有任何問題。

進口zipfile我dbutils.fs.ls (“/ mnt / zipfilespath /”):與zipfile.ZipFile (i.path.replace (“dbfs: ', ' / dbfs '),模式= r) zip_ref: zip_ref.extractall (destination_path)

我安裝一個ADLS Gen 2容器由幾個. csv zip文件,請讓我知道如果你麵臨任何進一步的問題,樂意幫助! !

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map