我在筆記本jupyter中心工作。我用pyspark dataframe分析文本。更準確的說我做sentimment報紙文章的分析。代碼的工作,直到我得到一些點內核是忙碌忙碌,大約10分鍾後,切換到未知。使它停止工作的操作例如.drop()和groupBy ()。數據集隻有25 k行。看後我得到這個消息的日誌:
階段1:>(0 + 0)/ 1]22/06/02 09:30:17警告TaskSetManager:階段1包含了一個非常大的任務大小(234399簡約)。的最大大小是1000簡約推薦任務。
一些研究之後,我發現,這可能是由於完整的記憶。但是我不知道如何提高它。
構建應用程序的火花我使用這段代碼:
火花= SparkSession。builder \部分(“當地”)\ .appName (x) \ config (“spark.driver。記憶”、“2 g) \ config (“spark.executor。記憶”、“12 g”) \ .getOrCreate () sc =火花。sparkContext sqlContext = sqlContext (sc)
任何思想內核停止改變“未知”或以某種方式釋放內存嗎?注意:我不是使用抽樣dataframes火花
我分享我的筆記本。這個項目是我的論文,我渴望得到工作的代碼。將是非常感謝任何幫助!
不,我沒有。我怎麼能這樣做呢?
火花是一個分布式數據處理框架。發光,你需要多台機器(vm或物理)。否則它並不比熊貓等(在本地模式下在單個節點上)。
開始使用火花,您應該連接到現有的火花集群(如果有一個集群可供你),這可能是最簡單的方法:注冊磚Community Edition和開始使用磚。
Community Edition是有限的功能,但是仍然非常有用。
https://docs.m.eheci.com/getting-started/quick-start.html
如果你不能做,停止使用pyspark並專注於純python代碼。
你仍然可以遇到內存問題雖然在本地運行代碼。