取消
顯示的結果
而不是尋找
你的意思是:

如何計算列的百分比DataFrame火花?

dheeraj
新的貢獻者二世

我試圖在DataFrame計算列的百分比?我不能找到任何percentile_approx功能引發聚合函數。如在蜂巢percentile_approx和我們可以以以下方式使用它

hiveContext。sql(“選擇percentile_approx (“Open_Rate”, 0.10)從myTable);

但是我想使用火花DataFrame性能的原因。

樣本數據集

| |用戶ID Open_Rate | - - - - - - - - - - - - - - - - - - - | A1 | 10.3 | 4.04 | B1 | | | C1 | 21.7 | | D1 | 18.6 |

我想知道有多少用戶分為10百分比或20百分位等等。我想是這樣的

df.select ($ " id ",百分位(Open_Rate)美元),告訴

3回複3

dheeraj
新的貢獻者二世

修正在上麵的問題中,我想是這樣的

df.select ($ " id ",百分位(“Open_Rate”美元,0.1)),告訴

SiddSingal
新的貢獻者二世

你可以試著自己的版本的代碼。它似乎並不像這個功能是建立DataFrames火花。您可能需要使用窗口類來完成這項工作。這是一篇博客文章中一些細節://m.eheci.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

amandaphy
新的貢獻者二世

你可以嚐試使用df.registerTempTable (“tmp_tbl”) val newDF = sql(/做一些tmp_tbl /) / /和繼續使用newDF了解更多信息

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map