解決方案的ConnectException錯誤:這通常是…-磚- 3998

Satty · ‎05-25-2023

當我試圖運行和加載多個文件在單一dataframe處理(總文件大小超過15 gb單一dataframe在循環結束時,我的代碼崩潰每次用下麵的錯誤……

錯誤的ConnectException:這通常是由一個伯父錯誤導致到Python REPL的連接被關閉。檢查你的查詢的內存使用。

請幫我解決它。下麵是我的代碼

df2 = pd.DataFrame ()

因為我在範圍(0 k):

df1 = pd.DataFrame ()

在pd j。date_range (start_date,時間= 5):

start_date打印(我)

路徑= r ' / dbfs / mnt / xxxx / * * * / Ixxxx / * * * /

path1 = os.path。加入(路徑,“XXXX_”+ start_date + . csv)

如果os.path.isfile (path1):

df = pd。read_csv (path1 low_memory = False)

df = df。下降([‘Var1’,‘Var2’,‘Var3’),軸= 1)

df = df.drop_duplicates(保持= '第一次')

df。reset_index (= True下降,原地= True)

df。set_index (VmsNo,原地= True)

df1 = df1.append (df)

start_date = (pd.Timestamp (start_date)——pd.DateOffset(天= 1).strftime (' % Y % m % d ')

df2 = df2.append (df1)

pvignesh92 · ‎05-26-2023

@Satish Agarwal似乎你的係統內存不足以加載15 gb的文件。我相信你是使用Python熊貓數據幀加載15 gb的文件,而不是使用火花。有什麼特別的原因,你不能使用火花。

磚