取消
顯示的結果
而不是尋找
你的意思是:

JSON字符串對象嵌套數組和結構體列在pyspark dataframe

filipjankovic
新的因素

我試圖將JSON字符串存儲在變量轉換成火花dataframe沒有指定模式,因為我有一個大數量的不同的表,所以它必須是動態的。與sc.parallelize我設法做到,但由於我們正在統一目錄,我不得不創建一個共享計算集群,所以現在sc.parallelize和其他一些庫是不工作。

我準備了3種不同的JSON字符串存儲在變量是這樣,但最初更行。我需要它適用於所有3的例子。

Onedrive文件:JSON轉換sample.dbc

這裏的例子代碼,正在與單用戶集群,但不是與共享計算:

進口json

data_df = sc.parallelize (value_json)。地圖(λx: json.dumps (x))
data_final_df = spark.read.json (data_df)
data_final_df = data_final_df.toDF (* (replace (@odata。”、“_odata_”) .replace (”。”、“_”)在data_final_df.columns c))

顯示器(data_final_df)

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map