取消
顯示的結果
而不是尋找
你的意思是:

Pyspark vs熊貓

pjp94
貢獻者

想更好地理解編寫python筆記本的優勢在pyspark vs熊貓。整個筆記本需要寫在pyspark實現性能優勢。我目前有一個腳本使用熊貓我所有的轉換——我可以隻是取代“低效”塊pyspark並保持較小的/低成本轉換在熊貓嗎?謝謝!

13日回複13

Hubert_Dudek1
尊敬的貢獻者三世

作為@Werner Stinckens說“火花”將使用多個節點來處理數據。

如果你想使用熊貓的代碼有熊貓的API火花(3.2)。你需要做的就是進口不同的庫:

#這不是:從熊貓從pyspark進口read_csv。熊貓進口read_csv pdf = read_csv (“data.csv”)

這裏有更多的信息//m.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html

當我運行下麵的代碼:

進口pyspark。熊貓作為ps

我收到一個錯誤:沒有模塊命名“pyspark.pandas”

你知道怎麼解決這個問題?

werners1
尊敬的貢獻者三世

你必須運行一個最新版本的磚,火花3.2(從10.0我想)。

在此之前pyspark。熊貓叫考拉。如果你是在一個較低的版本中,您應該使用考拉。但它是一樣的。

是的,磚運行時的10.0或更高版本。

Hubert_Dudek1
尊敬的貢獻者三世

你需要運行時10.0或10.1

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map