我使用一個大型文本變量,工作成單行JSON,火花可以美麗的過程。使用單個節點256 GB 32核心Standard_E32d_v4“集群”,這應該足夠內存數據集(沒見過集群內存使用超過130 GB)。但是我越來越崩潰”火花驅動程序意外停止並重新啟動……”There is no further info on the failure. This happens when writing an intermediate step to text file using:
str_variable dbutils.fs.put(“路徑/ filename.txt”,真的)
我試著寫/ tmp /以及Azure blob,相同的結果。
我開始向下一個gc調優路但還沒有算出了集群配置增加最大的堆大小,目前30 gb
任何有關這可能會導致什麼?不知道還能怎樣解決這個限製,因為我已經打破了管道分成intermediate-step-write,垃圾收集/重置內存狀態,繼續從中間,流