取消
顯示的結果
而不是尋找
你的意思是:

循環Dataframe Python

FernandoBenedet
新的因素

你好,

想象你有dataframe關口:a、B、C .我想添加一個列D基於一些計算的列B和C的df的紀錄。這樣做的最佳方式是什麼?我試圖避免遍曆df。我使用python。

謝謝。

費爾南多。

2回答2

ColbyCarrillo
新的貢獻者二世

我可能會使用一個窗口函數pyspark之內。

磚的博客鏈接://m.eheci.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

另一個選擇是使用滯後或鉛列幫你捕獲的數據你欲望的相對位置。

你可以在這裏找到主題在SQL函數列表:https://docs.m.eheci.com/spark/latest/spark-sql/language-manual/functions.html

quincybatten
新的貢獻者二世

遍曆熊貓dataFrame對象通常是緩慢的。熊貓迭代使用DataFrame跳動的整個目的。它是一種反模式,是你應該隻做當你已經用盡了所有其他選項。最好是找一個列表理解,矢量化解決方案或DataFrame.apply()方法。

熊貓DataFrame循環使用列表理解:

結果= [(x, y, z) x, y, z的zip (df(“名字”),df(“提升”),df(“年級”)))

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map