保存Apache火花DataFrames TFRecord文件

本文向您展示如何使用Apache火花DataFrames spark-tensorflow-connector保存和負載TFRecord TensorFlow TFRecord文件。

TFRecord文件格式是一種簡單的麵向記錄毫升訓練數據的二進製格式。的tf.data.TFRecordDataset類允許您流在一個或多個TFRecord文件的內容作為一個輸入管道的一部分。

使用spark-tensorflow-connector圖書館

您可以使用spark-tensorflow-connector拯救Apache火花DataFrames TFRecord文件。

spark-tensorflow-connector圖書館內的嗎TensorFlow生態係統,使火花DataFrames之間的轉換TFRecords(TensorFlow流行的格式來存儲數據)。spark-tensorflow-connector一樣,您可以使用火花DataFrame api TFRecords文件讀入DataFrames和寫DataFrames TFRecords。

請注意

spark-tensorflow-connector庫是包含在磚運行時機器學習。使用spark-tensorflow-connector磚運行時,您需要安裝Maven的圖書館。看到Maven或火花包獲取詳細信息。

例如:與TensorFlow從TFRecord加載數據文件

筆記本的示例演示了如何從Apache火花DataFrames TFRecord文件保存數據和負載毫升TFRecord文件培訓。

你可以加載TFRecord文件使用tf.data.TFRecordDataset類。看到閱讀TFRecord文件從TensorFlow細節。

圖像數據準備分布式DL筆記本

在新標簽頁打開筆記本