取消
顯示的結果
而不是尋找
你的意思是:

熊貓API火花,多節點集群上運行嗎?

麥當娜
重視貢獻二世

你好,

我有一些關於“火花熊貓API”的問題。感謝你的時間閱讀我的問題

1)輸入這些函數是熊貓DataFrame或PySpark DataFrame嗎?

2)當我使用任何熊貓功能(並網發電、大小、應用,等等),它隻在一個節點上運行或多節點?

謝謝。

1接受解決方案

接受的解決方案

我想分享以下信息,或許可以幫到你。

熊貓熊貓API火花填補了這一空白,提供相同的API, Apache火花。熊貓API火花不僅為熊貓用戶有用而且PySpark用戶,因為熊貓API支持許多火花與PySpark任務困難,例如繪製數據直接從PySpark DataFrame。醫生https://docs.m.eheci.com/_static/notebooks/pandas-to-pandas-api-on-spark-in-10-minutes.html

在原帖子查看解決方案

4回複4

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Mohammad劍,

數據集熊貓住在單獨的機器,在同一台機器上並在本地自然iterable。然而,pandas-on-Spark數據集生活跨多台機器,他們以分布式的方式計算。很難在本地iterable和很可能用戶收集整個數據到客戶端在不知情的情況下。因此,最好是堅持使用pandas-on-Spark api。

請參考:

https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/best_practices.html使用p…

https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html

https://docs.m.eheci.com/languages/pandas-spark.html

請讓我們知道如果你需要進一步的澄清。我們更樂意幫助你。

麥當娜
重視貢獻二世

@Debayan穆克吉

謝謝你的幫助。

我有一個問題關於術語:“熊貓數據集”和“pandas-on-Spark數據集”。

當你說“數據集”,它指的是“DataFrame”嗎?

如果我創建了“pandas-on-Spark數據集”,我可以申請熊貓函數,或者我應該把它轉換成“熊貓數據集”這樣的計算?

如果我需要把它轉換成“熊貓數據集”,我認為計算將在單個節點上完成。是正確的嗎?

我想分享以下信息,或許可以幫到你。

熊貓熊貓API火花填補了這一空白,提供相同的API, Apache火花。熊貓API火花不僅為熊貓用戶有用而且PySpark用戶,因為熊貓API支持許多火花與PySpark任務困難,例如繪製數據直接從PySpark DataFrame。醫生https://docs.m.eheci.com/_static/notebooks/pandas-to-pandas-api-on-spark-in-10-minutes.html

麥當娜
重視貢獻二世

謝謝你的回複。

我隻是想確認熊貓API火花使用火花的並行能力(多節點上計算)。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map