基本上它可以歸結為這個:
熊貓/ Python數據處理很好,隻要它可以運行在單個節點上。
如果你沒有問題處理您的數據在單個節點上,熊貓很好。
然而,當你開始伯父消息等,它可以是一個好主意看pyspark.pandas。
火花將使用多個節點來處理數據。
當然,這意味著你將不得不重寫代碼。但隨著最新添加的磚這不會是一個艱巨的任務,這是一篇有趣的文章:
//m.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html
除此之外你還可以使用“普通”熊貓或python。但要注意,這段代碼將執行在司機(在單節點模式)。
你可以混合熊貓和pyspark。熊貓但並不保證這將是比在pyspark盡。熊貓,因為它會引發的處理邏輯分解成多個部分。
但是看看這篇文章,讓你看到它。