取消
顯示的結果
而不是尋找
你的意思是:

gg不工作為多個聚合函數

FrancisLau
新的因素

數據有2列:

| requestDate | requestDuration |

| 104 | 2015-06-17 |

這是代碼:

avgSaveTimesByDate = gridSaves.groupBy (gridSaves.requestDate)。gg ({“requestDuration”:“敏”,“requestDuration”:“max”、“requestDuration”:“avg”})

avgSaveTimesByDate.show (100)

總結問題

我希望4列數據:日期、最小、最大和平均隻有日期和平均所示。第一個2 gg不出現。如果我馬克斯移到最後的位置,隻有日期和馬克斯。非常奇怪。

+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | requestDate | AVG (requestDuration) | + + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +

| 2015-06-10 | 750.8886326991035 |

我這樣做正確嗎?我想要一個dataframe箱線圖。

1接受解決方案

接受的解決方案

河
新的貢獻者三世

我猜想這可能不工作的原因是這一事實字典輸入沒有獨特的鑰匙。這個語法,列名鍵,如果有兩個或兩個以上的聚合為同一列,一些內部循環的性可能會忘記鑰匙。

在原帖子查看解決方案

2回答2

User16826991422
貢獻者

嗨,弗朗西斯,

謝謝你的接觸。

我隻是試著在磚的2.0版本,它似乎像預期的那樣工作。

你是使用版本2.0和1.4的火花嗎?

如果是這樣我建議使用這個替代語法:

從pyspark。sql導入函數F

gg = df.groupBy .agg (df(“削減”)。切,F.min(“克拉”),F.max(“克拉”),F.avg(“克拉”))

讓我知道這是否適合你。

河
新的貢獻者三世

我猜想這可能不工作的原因是這一事實字典輸入沒有獨特的鑰匙。這個語法,列名鍵,如果有兩個或兩個以上的聚合為同一列,一些內部循環的性可能會忘記鑰匙。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map