自動加載器是什麼?

汽車逐步加載程序和有效的過程隨著他們到達雲存儲新的數據文件沒有任何額外的設置。

自動加載器是如何工作的呢?

自動加載程序逐步有效地流程到達雲存儲新的數據文件。自動加載程序可以加載數據文件從AWS S3 (s3: / /),Azure數據存儲Gen2湖(ADLS代,abfss: / /),穀歌雲存儲(GCS,g: / /),Azure Blob存儲(wasbs: / /),ADLS Gen1 (adl: / /文件係統),磚(DBFS,dbfs: /)。自動加載器可以攝取JSON,CSV,拚花,AVRO,獸人,文本,BINARYFILE文件格式。

自動加載器提供了一個結構化流源cloudFiles。給定一個輸入在雲端文件存儲目錄路徑,cloudFiles源自動流程為到達的新文件,選擇也處理現有的文件目錄。自動加載程序支持Python和SQL三角洲生活表。

您可以使用自動加載程序來處理數十億的文件遷移或回填表。自動加載程序擴展到支持實時攝取數以百萬計的文件每小時。

自動加載程序跟蹤攝入進展如何?

文件被發現,他們的元數據保存在一個可伸縮的鍵值存儲(RocksDB)檢查點位置你的汽車裝載器管道。這個鍵值存儲處理確保數據準確。

在失敗的情況下,自動加載器可以從上次的簡曆信息存儲在檢查點位置和繼續提供隻有一次保證當寫入數據到三角洲湖。你不需要維護或管理任何國家自己來實現容錯或僅一次語義。

教程:攝入數據與磚自動加載程序

磚建議汽車裝載機三角洲生活表增量數據攝入。三角洲住在Apache火花結構化流表擴展功能,允許您編寫幾行Python或SQL聲明式部署生產數據管道。

磚建議自動加載程序時使用Apache火花結構化流從雲攝取數據對象存儲。在Python和Scala api可用。

開始使用自動加載程序,請參閱:

常用的模式的例子,請參閱:

配置自動加載程序選項

您可以調整自動加載程序基於數據量,品種,和速度。

自動加載器選項的完整列表,請參閱:

如果你遇到意想不到的表現,看到常見問題解答

配置自動加載程序文件檢測模式

自動加載程序支持兩種文件檢測模式。看到的:

汽車的好處直接裝入器在使用結構化流文件

在Apache的火花,你可以讀文件逐步使用spark.readStream.format (fileFormat) .load(目錄)。自動加載程序在文件來源:提供了以下好處

  • 可伸縮性:自動加載器能有效地發現數以十億美元計的文件。詳細可以異步執行,以避免浪費計算資源。

  • 性能:發現文件自動加載程序的成本規模的文件,被消化,而不是目錄文件的數量可能的土地。看到自動加載程序目錄清單模式是什麼?

  • 進化模式推理和支持:自動加載器可以檢測模式漂移,通知你當模式變化發生,救援數據,否則會被忽略或丟失。看到自動加載程序模式推理是如何工作的呢?

  • 費用:汽車裝載機使用本地雲api來獲取文件列表中存在的存儲。此外,自動加載程序的文件通知模式可以幫助減少雲成本進一步通過避免目錄清單。自動加載程序可以自動設置文件存儲,使文件通知服務發現便宜得多。