解決:熊貓API火花,它運行在一個多節點c…-磚- 26893

麥當娜 · ‎10-17-2022

你好,

我有一些關於“火花熊貓API”的問題。感謝你的時間閱讀我的問題

1)輸入這些函數是熊貓DataFrame或PySpark DataFrame嗎?

2)當我使用任何熊貓功能(並網發電、大小、應用,等等),它隻在一個節點上運行或多節點?

謝謝。

jose_gonzalez · ‎10-24-2022

我想分享以下信息,或許可以幫到你。

熊貓熊貓API火花填補了這一空白,提供相同的API, Apache火花。熊貓API火花不僅為熊貓用戶有用而且PySpark用戶,因為熊貓API支持許多火花與PySpark任務困難,例如繪製數據直接從PySpark DataFrame。醫生https://docs.m.eheci.com/_static/notebooks/pandas-to-pandas-api-on-spark-in-10-minutes.html

Debayan · ‎10-18-2022

嗨@Mohammad劍,

數據集熊貓住在單獨的機器,在同一台機器上並在本地自然iterable。然而,pandas-on-Spark數據集生活跨多台機器,他們以分布式的方式計算。很難在本地iterable和很可能用戶收集整個數據到客戶端在不知情的情況下。因此,最好是堅持使用pandas-on-Spark api。

請參考:

請讓我們知道如果你需要進一步的澄清。我們更樂意幫助你。

麥當娜 · ‎10-18-2022

@Debayan穆克吉

謝謝你的幫助。

我有一個問題關於術語:“熊貓數據集”和“pandas-on-Spark數據集”。

當你說“數據集”,它指的是“DataFrame”嗎?

如果我創建了“pandas-on-Spark數據集”,我可以申請熊貓函數,或者我應該把它轉換成“熊貓數據集”這樣的計算?

如果我需要把它轉換成“熊貓數據集”,我認為計算將在單個節點上完成。是正確的嗎?

jose_gonzalez · ‎10-24-2022

我想分享以下信息,或許可以幫到你。

熊貓熊貓API火花填補了這一空白,提供相同的API, Apache火花。熊貓API火花不僅為熊貓用戶有用而且PySpark用戶,因為熊貓API支持許多火花與PySpark任務困難,例如繪製數據直接從PySpark DataFrame。醫生https://docs.m.eheci.com/_static/notebooks/pandas-to-pandas-api-on-spark-in-10-minutes.html

麥當娜 · ‎10-25-2022

謝謝你的回複。

我隻是想確認熊貓API火花使用火花的並行能力(多節點上計算)。

磚