JSON字符串對象嵌套數組和結構體有限公司…-磚- 37283

filipjankovic · ‎07-10-2023

我試圖將JSON字符串存儲在變量轉換成火花dataframe沒有指定模式,因為我有一個大數量的不同的表,所以它必須是動態的。與sc.parallelize我設法做到,但由於我們正在統一目錄,我不得不創建一個共享計算集群,所以現在sc.parallelize和其他一些庫是不工作。

我準備了3種不同的JSON字符串存儲在變量是這樣,但最初更行。我需要它適用於所有3的例子。

Onedrive文件:JSON轉換sample.dbc

這裏的例子代碼,正在與單用戶集群,但不是與共享計算:

進口json

data_df = sc.parallelize (value_json)。地圖(λx: json.dumps (x))
data_final_df = spark.read.json (data_df)
data_final_df = data_final_df.toDF (* (replace (@odata。”、“_odata_”) .replace (”。”、“_”)在data_final_df.columns c))

顯示器(data_final_df)

磚

JSON字符串對象嵌套數組和結構體列在pyspark dataframe