你好,
我們寫平json dataframe用戶定義的嵌套模式使用pysprk json數據磚。但是我們沒有得到預期的格式
期望:
{" ID ":“aaa”, c_id”:[{“反對”:空,“createdate”:“2015 - 10 - 09年t00:00:00z”、“數據”:空,“ID”:“1”},{“反對”:空,“createdate”:“2015 - 10 - 09年t00:00:00z”、“數據”:空,“ID”:“2”},{“反對”:空,“createdate”:“2015 - 10 - 09年t00:00:00z”、“數據”:空,“ID”:“3”}]
但得到:
{" ID ":“aaa”, c_id ":{“反對”:空,“createdate”:“2015 - 10 - 09年t00:00:00z”、“數據”:null, " ID ": " 1 "}},
{" ID ":“aaa”, c_id ":{“反對”:空,“createdate”:“2015 - 10 - 09年t00:00:00z”、“數據”:空,“ID”:“2”}},
{" ID ":“aaa”, c_id”:{“反對”:空,“createdate”:“2015 - 10 - 09年t00:00:00z”、“數據”:空,“ID”:“3”}}
我們嚐試group_by和收集名單但沒有得到預期的格式。
有人能幫助我們有什麼方法來實現它。
提前謝謝你
你好,
謝謝你的回複. .
我在這裏分享代碼塊
df_global_op = df_global.withColumn(“定義”,結構((df_global.id) .alias (" ID ") \
結構((df_global.a) .alias(“騙”)\
(df_global.b) .alias (“createdate”), \
(df_global.c) .alias(“數據”),\
(df_global.d) .alias \ (" id "))
別名(“c_id”))) \
下降(* global_fields) .select(“定義。*”).distinct () .write \
格式(json) \
選項(“ignoreNullFields”,“假”)。\
保存(“/ mnt /測試/ op / 12-08-2021”)
請注意df_global是輸入的平df json . .我們推導json輸出上平一個基於請求的模式。
謝謝你!