python dataframe或hiveSql更新基於predec……-磚- 33879

as999 · ‎12-02-2021

我有一百萬行,我需要更新它尋找最高的數相同的源數據和替換的前任相同的值在不同的行。

為例。

原來的DF。

sno對象名稱形狀評級

1水果蘋果1.0圓

2水果蘋果2.0圓

3水果蘋果2.5平方

4橙色水果1.5圓

' ' '

DF所需的目標。

' ' '

sno對象名稱形狀評級

1水果蘋果1.0圓

2水果蘋果2.0圓

3水果蘋果輪2.5 <——自動檢測形狀的差異從廣場輪列和更新

4橙色水果1.5圓

' ' '

請建議,如何實現databrick使用我。e pyspark hiveSQL或scala

werners1 · ‎12-02-2021

所以你要確定電機的最大數量為一組鑰匙嗎?

這很簡單:創建一個df: df: groupBy(對象、名稱、形狀).agg (count (“*”))

然後加入這個df與原列替換原來的形狀。

as999 · ‎12-02-2021

謝謝你的回複,你能請詳細說明如何加入原始列和替換形狀?

werners1 · ‎12-02-2021

基本上你必須創建一個dataframe(或使用一個窗口函數,還將工作)給你集團結合最病症。所以一個窗口/ groupby對象、名稱、形狀與一個計數()。

然後你必須確定哪個形狀的馬克斯(計數)對象/名稱組合。

也可以使用groupby或窗口。

最後你過濾這個馬克斯果不其然。

如果你使用窗口函數可以避免加入我認為(在這個從我的腦海中)。

磚