將數據加載到Databricks Lakehouse

Databricks提供了多種方法來幫助您將數據加載到三角洲湖後麵的湖屋。Databricks建議使用Auto Loader從雲對象存儲增量數據攝取。的添加數據界麵提供許多選項,用於快速上傳本地文件或連接到外部數據源。

運行您的第一個ETL工作負載

如果你還沒有在Databricks上使用Auto Loader,可以從教程開始。看到在Databricks上運行您的第一個ETL工作負載

自動加載程序

自動加載程序在新數據文件到達雲存儲時,增量地、高效地處理它們,而無需額外設置。Auto Loader提供了一個名為cloudFiles.給定雲文件存儲上的輸入目錄路徑,則cloudFilesSource在新文件到達時自動處理,還可以選擇處理該目錄中的現有文件。

自動ETL與德爾塔活動表和自動加載器

可以簡化可伸縮的增量攝取基礎設施的部署自動加載器和Delta活動表.注意,Delta Live Tables並沒有使用筆記本電腦中標準的交互式執行,而是強調了為生產準備的基礎設施的部署。

上傳本地數據文件或連接外部數據源

您可以安全地上傳本地數據文件或從外部源攝取數據以創建表。看到使用添加數據UI加載數據

通過第三方工具將數據加載到Databricks中

Databricks驗證技術合作夥伴的集成,使您能夠將數據加載到Databricks。這些集成使低代碼、可伸縮的數據從各種來源攝取到Databricks成為可能。看到技術合作夥伴.一些技術合作夥伴的特色Databricks合作夥伴連接,它提供了一個UI,簡化了第三方工具與您的湖屋數據的連接。

複製到

複製到允許SQL用戶以冪等方式增量地將數據從雲對象存儲加載到Delta Lake表中。它可以用於Databricks SQL,筆記本,和Databricks工作。

何時使用COPY INTO,何時使用Auto Loader

這裏有一些事情要考慮,當選擇Auto Loader和COPY INTO:

  • 如果您要攝取數千個量級的文件,您可以使用複製.如果你期望隨著時間的推移文件數量達到數百萬或更多,請使用Auto Loader。與COPY INTO相比,Auto Loader需要更少的總操作來發現文件,並且可以將處理分成多個批次,這意味著Auto Loader在規模上更便宜,更高效。

  • 如果您的數據模式將頻繁演變,Auto Loader將提供更好的模式推斷和演變原語。看到在Auto Loader中配置模式推斷和進化欲知詳情。

  • 使用COPY INTO加載重新上傳的文件的子集可能更容易管理。使用Auto Loader,重新處理選定的文件子集更加困難。但是,您可以使用COPY INTO在Auto Loader流同時運行時重新加載文件子集。

對於一個簡要的概述和演示的自動裝載機,以及複製到觀看這段YouTube視頻(2分鍾)。

使用Apache Spark從外部源加載數據

您可以使用Apache Spark連接到各種數據源。看到與Databricks上的外部數據交互獲取連接的選項和示例列表。

檢查在數據攝取期間捕獲的文件元數據

Apache Spark在加載數據時自動捕獲源文件的數據。Databricks允許您使用文件元數據列

上傳電子表格導出到Databricks

通過數據上傳界麵上傳CSV或TSV文件。看到上傳數據到Databricks

將數據應用程序遷移到Databricks

將現有數據應用程序遷移到Databricks,以便您可以在單個平台上使用來自多個源係統的數據。Beplay体育安卓版本看到將數據應用程序遷移到Databricks