06-09-202006:08點
你好,
想象你有dataframe關口:a、B、C .我想添加一個列D基於一些計算的列B和C的df的紀錄。這樣做的最佳方式是什麼?我試圖避免遍曆df。我使用python。
謝謝。
費爾南多。
06-09-202006:52點
我可能會使用一個窗口函數pyspark之內。
另一個選擇是使用滯後或鉛列幫你捕獲的數據你欲望的相對位置。
你可以在這裏找到主題在SQL函數列表:https://docs.m.eheci.com/spark/latest/spark-sql/language-manual/functions.html
05-02-2021十一25點
遍曆熊貓dataFrame對象通常是緩慢的。熊貓迭代使用DataFrame跳動的整個目的。它是一種反模式,是你應該隻做當你已經用盡了所有其他選項。最好是找一個列表理解,矢量化解決方案或DataFrame.apply()方法。
熊貓DataFrame循環使用列表理解:
結果= [(x, y, z) x, y, z的zip (df(“名字”),df(“提升”),df(“年級”)))
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。