計算機視覺項目,我的原始數據由加密視頻(60 fps)存儲在Azure Blob存儲。為了使數據用於模型訓練,我需要做一些預處理和我需要視頻分成單獨的幀。視頻加密但我可以通過FFmpeg的加密密鑰解密視頻文件。我已經找到一種方法來“管”FFmpeg(幀數)的輸出發送到stdout,可以通過python FFmpeg庫拿起。問題在於,即使是幾分鍾的視頻中,一個集群有112 gb內存已經跑到伯父錯誤。
我試著什麼:
我想要的:
從視頻中提取幀和管產生的幀pyspark DF進行進一步處理,不需要一個巨大的集群,隻能進行預處理幾分鍾的視頻(使它非常昂貴)。我非常開放使用不同的庫和不同的配置,任何方式都可以讓我做我想做的任務是我想嚐試!
行數據的示例:
container_name:“sample_container_name”
文件名:“/ dbfs / mnt /…/…/ ....... / video.mp4x”
持續時間:25.6
身高:1080
寬度:1920
#嚐試與時間間隔(以秒為單位,這意味著每間隔間隔5秒= 300幀)
開始:0
結束:5
我相信是真的,因為我隻是使用的python庫實現它。順序是否有一種方法來運行它在司機一旦一行被處理它的手去外麵的執行人,能否實現它的記憶我會沒事的(我的主要問題在於內存使用,不是速度/ cpu利用率),但我不知道如果有一種方法可以做到這一點。
我要看看OpenCV,雖然上次我檢查我無法解密工作。
Deepstream似乎是一個完全的端到端係統,因為我有一些定製預處理做我不認為我可以工作(很容易)。
謝謝你的回答!