取消
顯示的結果
而不是尋找
你的意思是:

如何閱讀一個json從BytesIO PySpark嗎?

Galdino
新的貢獻者二世

我想要讀一個json使用PySpark從輸入輸出變量。

我的代碼使用熊貓:

io = BytesIO ()

ftp。retrbinary (“RETR”+ file_name io.write)

io.seek (0)

#與熊貓

df = pd.read_json (io)

我試著用PySpark,但不要工作:

io = BytesIO ()

ftp。retrbinary (“RETR”+ file_name io.write)

io.seek (0)

df = spark.read \

.format (binaryfile) \ #我已經試著用“json格式

.option (“inferSchema”,“真正的”)\

.option(“頭”,“真正的”)\

. json (io)

奧林匹克廣播服務公司:是不可能保存在一個文件並閱讀後

3回複3

Noopur_Nigam
重視貢獻二世

嗨@Joao Galdino有以下點不正確的在你的火花讀取命令:

1)語法是錯誤的,它可以

df = spark.read \

.format (“binaryFile”)

.load(“文件目錄”)

df = spark.read \

.format (json)

.load(“文件目錄”)

df = spark.read

. json文件(“目錄”)

您需要指定一個文件格式,然後提供文件的路徑。

2)火花預計源文件路徑,它不懂BytesIO在閱讀聲明中()對象。

您可以參考以下文檔更多理解與火花所支持的來源是什麼以及如何使用它們讀和寫。您可以參考以下文檔:

https://docs.m.eheci.com/data/data-sources/index.html

VartikaNain
主持人
主持人

嘿@Joao Galdino

希望一切都好!

隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

Erik_L
因素二世

隻使用熊貓和遵循

spark.createDataFrame (df)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map