我想分享以下信息,或許可以幫到你。
熊貓熊貓API火花填補了這一空白,提供相同的API, Apache火花。熊貓API火花不僅為熊貓用戶有用而且PySpark用戶,因為熊貓API支持許多火花與PySpark任務困難,例如繪製數據直接從PySpark DataFrame。醫生https://docs.m.eheci.com/_static/notebooks/pandas-to-pandas-api-on-spark-in-10-minutes.html
嗨@Mohammad劍,
數據集熊貓住在單獨的機器,在同一台機器上並在本地自然iterable。然而,pandas-on-Spark數據集生活跨多台機器,他們以分布式的方式計算。很難在本地iterable和很可能用戶收集整個數據到客戶端在不知情的情況下。因此,最好是堅持使用pandas-on-Spark api。
請參考:
https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/best_practices.html使用p…
https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html
https://docs.m.eheci.com/languages/pandas-spark.html
請讓我們知道如果你需要進一步的澄清。我們更樂意幫助你。
我想分享以下信息,或許可以幫到你。
熊貓熊貓API火花填補了這一空白,提供相同的API, Apache火花。熊貓API火花不僅為熊貓用戶有用而且PySpark用戶,因為熊貓API支持許多火花與PySpark任務困難,例如繪製數據直接從PySpark DataFrame。醫生https://docs.m.eheci.com/_static/notebooks/pandas-to-pandas-api-on-spark-in-10-minutes.html