取消
顯示的結果
而不是尋找
你的意思是:

python dataframe或hiveSql更新基於前任價值?

as999
新的貢獻者三世

我有一百萬行,我需要更新它尋找最高的數相同的源數據和替換的前任相同的值在不同的行。

為例。

原來的DF。

sno對象名稱形狀評級

1水果蘋果1.0圓

2水果蘋果2.0圓

3水果蘋果2.5平方

4橙色水果1.5圓

' ' '

DF所需的目標。

' ' '

sno對象名稱形狀評級

1水果蘋果1.0圓

2水果蘋果2.0圓

3水果蘋果輪2.5 <——自動檢測形狀的差異從廣場輪列和更新

4橙色水果1.5圓

' ' '

請建議,如何實現databrick使用我。e pyspark hiveSQL或scala

3回複3

werners1
尊敬的貢獻者三世

所以你要確定電機的最大數量為一組鑰匙嗎?

這很簡單:創建一個df: df: groupBy(對象、名稱、形狀).agg (count (“*”))

然後加入這個df與原列替換原來的形狀。

as999
新的貢獻者三世

謝謝你的回複,你能請詳細說明如何加入原始列和替換形狀?

werners1
尊敬的貢獻者三世

基本上你必須創建一個dataframe(或使用一個窗口函數,還將工作)給你集團結合最病症。所以一個窗口/ groupby對象、名稱、形狀與一個計數()。

然後你必須確定哪個形狀的馬克斯(計數)對象/名稱組合。

也可以使用groupby或窗口。

最後你過濾這個馬克斯果不其然。

如果你使用窗口函數可以避免加入我認為(在這個從我的腦海中)。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map