嗨,我是新數據庫SQL。我有一個表數組的列(城市)包含多個數組和一些有多個重複的值。我需要解壓數組值進行我可以列出不同值。下麵的查詢在這一步工作。
選擇不同的關鍵,爆炸(城市)作為城市綠色。城市集團的關鍵,城市
下一步我想重新打包截然不同的城市到一個數組中分組的關鍵。
我可以很容易的用兩dataframes pyspark,首先通過一個爆炸的數組列第一dataframe然後做一個未來dataframe collect_set在同一列。
任何建議我如何可以使用磚SQL ?
謝謝休伯特。到目前為止我不收集expolded列分組的不同值的關鍵。
輸入是一個例子:
關鍵,城市
1,“米蘭”、“巴黎”、“紐約”)
1,“倫敦”
1,(“倫敦”、“巴黎”)
1,(“倫敦”、“巴黎”)
1,(“倫敦”、“巴黎”)
1,(“米蘭”,“巴黎”)
1,(“巴黎”,“紐約”)
1,“紐約”
1,“紐約”
2,“米蘭”、“巴黎”、“紐約”)
2,“巴黎”
2,“巴黎”
2,(“米蘭”,“巴黎”)
2,(“巴黎”,“紐約”)
2,“東京”
2,“紐約”
2,(“拉”,“東京”)
2,(“拉”,“東京”)
所需的輸出是:
關鍵,城市
1,“米蘭”、“巴黎”、“紐約”,“倫敦”)
2,“米蘭”、“巴黎”、“紐約”,“拉”,“東京”)