嘿,夥計們,
我想火車深學習模型在ML磚numpy數組作為輸入。
現在我有組織的所有數據在DF - DF包含4列:col1, col2, col3 col4
col1和col2陣列形狀(1,3,3,3,3),坳3與shpe數組(1,3,3,3)和col4是一個浮動的數字。
如你所知,pyspark df斜麵保存np數組作為值,所以我試著三種方法,第一種是將數組保存為二進製數據,第二個是保存列表,當加載數據變更np數組和重塑,第三種方法是改變批火花df成熊貓df和使用np。棧在每一列,這給最快的結果。
之後我有dataframe數組的每一行表示一組我想讓一個24批量大小,這意味著我將有4個np數組,為col1和col 2陣列形狀(24日3,3,3,3)為col3(24日3,3,3)和一維數組24浮動點。(每個數組的組合24行)
當試圖收集批24數組col2花了很多時間,從col1 x10和列表代表了數組收集發生得更快。
所以我有一些問題。
任何一個有好主意如何保存這些數據沒有付出大量的時間當我希望消費模型(e。g的收集數組和重塑每個列表的大小)。
其次,任何一個有什麼更好的方法來做我試圖實現什麼?
在預處理我不介意付出很多,但是我想要訓練快速和花最少的時間在準備數據。1日(我看到示例圖像作為輸入而不是4 d和5 d np數組)
希望你能幫助我。
謝謝!