數據攝取到磚Lakehouse

磚提供了多種方式來幫助你攝取數據lakehouse由三角洲湖。

上傳CSV文件

你可以安全地從CSV文件使用創建表在磚SQL創建表

合作夥伴集成

磚夥伴集成允許您將數據加載到數據磚。這些集成使low-code、可伸縮數據攝入來自各種來源的磚。看到磚的集成

複製到

數據加載和複製允許SQL用戶從雲冪等和增量加載數據對象存儲到三角洲湖表中。它可以用於磚SQL,筆記本,和磚的工作。

自動加載程序

自動加載程序增量地和有效地處理新的數據文件到雲存儲沒有額外的設置。自動加載器提供了一個新的結構化流源cloudFiles。給定一個輸入在雲端文件存儲目錄路徑,cloudFiles源自動流程為到達的新文件,選擇也處理現有的文件目錄。

何時使用複製成和何時使用自動加載程序

這裏有一些事情要考慮在選擇自動加載程序,複製到:

  • 如果你要攝取成千上萬的文件的順序,您可以使用複製。如果你預計數百萬以上的順序文件隨著時間的推移,使用自動加載程序。自動加載程序需要更少的總操作發現文件相比,複製,可以處理分割成多個批次,即自動加載器是更便宜,更有效地規模。

  • 如果您的數據模式經常會進化,自動加載程序提供了更好的基元模式推理和演化。看到配置模式推理和進化自動加載程序為更多的細節。

  • 文件可以加載的一個子集上傳有點容易管理和複製。使用自動加載程序,很難再加工的選擇子集文件。不過,您可以使用複製到重新加載文件時自動加載程序流的子集是同時運行。

簡要概述和演示的自動加載程序,以及複製到看這個YouTube視頻(2分鍾)。

使用Data選項卡來加載數據

數據科學與工程工作區Data選項卡允許您使用UI加載小文件創建表;看到探索和創建表與數據選項卡

使用Apache火花加載數據從外部來源

你可以連接到不同的數據源使用Apache火花。看到數據源連接的選項和示例列表。

審查文件元數據在數據攝入

Apache火花自動捕獲數據在數據加載源文件。磚允許您訪問這個數據的文件元數據列