取消
顯示的結果
而不是尋找
你的意思是:

如何計算分位數在火花Dataframe分組數據嗎

dshosseinyousef
新的貢獻者二世

我有以下sparkdataframe:

agent_id / payment_amount

一個/ 1000

b / 1100

一個/ 1100

一個/ 1200

b / 1200

b / 1250

一個/ 10000

b / 9000

我希望輸出將類似

95年<代碼> agen_id _quantile無論is95分位數為代理支付b無論is95分位數劑b支付

agent_id我需要計算每組的0.95分位數,我采取以下方法:

<代碼> test_df.groupby (agent_id) .approxQuantile (payment_amount, 0.95)

但我采取以下錯誤:

<代碼> GroupedData的對象沒有屬性“approxQuantile”

我需要.95分位數(百分比)的一個新列以後可以用於過濾的目的

2回答2

dshosseinyousef
新的貢獻者二世

@bill我會感激你的幫助,因為它是非常重要的

Weiluo__David_R
新的貢獻者二世

對於那些還沒有遇到這樣的線程http://stackoverflow.com/questions/39633614/calculate-quantile-on-grouped-data-in-spark-dataframe,指出有一種變通方法是使用蜂巢UDF“percentile_approx”。請接受答案,所以線程。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map