我想要讀一個json使用PySpark從輸入輸出變量。
我的代碼使用熊貓:
io = BytesIO ()
ftp。retrbinary (“RETR”+ file_name io.write)
io.seek (0)
#與熊貓
df = pd.read_json (io)
我試著用PySpark,但不要工作:
io = BytesIO ()
ftp。retrbinary (“RETR”+ file_name io.write)
io.seek (0)
df = spark.read \
.format (binaryfile) \ #我已經試著用“json格式
.option (“inferSchema”,“真正的”)\
.option(“頭”,“真正的”)\
. json (io)
奧林匹克廣播服務公司:是不可能保存在一個文件並閱讀後
嗨@Joao Galdino有以下點不正確的在你的火花讀取命令:
1)語法是錯誤的,它可以
df = spark.read \
.format (“binaryFile”)
.load(“文件目錄”)
或
df = spark.read \
.format (json)
.load(“文件目錄”)
或
df = spark.read
. json文件(“目錄”)
您需要指定一個文件格式,然後提供文件的路徑。
2)火花預計源文件路徑,它不懂BytesIO在閱讀聲明中()對象。
您可以參考以下文檔更多理解與火花所支持的來源是什麼以及如何使用它們讀和寫。您可以參考以下文檔: