我試圖將JSON字符串存儲在變量轉換成火花dataframe沒有指定模式,因為我有一個大數量的不同的表,所以它必須是動態的。與sc.parallelize我設法做到,但由於我們正在統一目錄,我不得不創建一個共享計算集群,所以現在sc.parallelize和其他一些庫是不工作。
我準備了3種不同的JSON字符串存儲在變量是這樣,但最初更行。我需要它適用於所有3的例子。
Onedrive文件:JSON轉換sample.dbc
這裏的例子代碼,正在與單用戶集群,但不是與共享計算:
進口json
data_df = sc.parallelize (value_json)。地圖(λx: json.dumps (x))
data_final_df = spark.read.json (data_df)
data_final_df = data_final_df.toDF (* (replace (@odata。”、“_odata_”) .replace (”。”、“_”)在data_final_df.columns c))
顯示器(data_final_df)