深入學習模型推理工作流
對於模型推斷深度學習應用程序,磚建議以下工作流。例如筆記本電腦使用TensorFlow PyTorch,明白了深入學習模型推理的例子。
數據加載到DataFrames火花。根據不同的數據類型,數據磚推薦以下方法來加載數據:
圖像文件(JPG, PNG):圖像路徑加載到火花DataFrame。圖像加載和預處理輸入數據出現在熊貓UDF。
files_df=火花。createDataFrame(地圖(λ路徑:(路徑),file_paths),(“路徑”])
TFRecords:加載數據使用spark-tensorflow-connector。
df=火花。讀。格式(“tfrecords”)。負載(image_path)
數據源如拚花、CSV、JSON、JDBC、和其他元數據:加載數據使用火花數據源。
執行模型推理使用熊貓udf。熊貓udf使用Apache箭頭和熊貓與數據傳輸數據。做模型推理,以下是廣泛的步驟在工作流熊貓udf。
加載訓練模型:為了提高效率,磚建議廣播模型的權重從司機和加載模型圖和從廣播獲得權重變量在一個熊貓UDF。
負載和輸入數據預處理:批量加載數據,數據磚推薦使用特遣部隊。data APITensorFlow和DataLoader類PyTorch。同時也支持預取和多線程加載隱藏IO延遲綁定。
模型預測:跑模型推理的數據批處理。
發回的預測引發DataFrames:收集的預測結果,並返回
pd.Series
。