將數據加載到Databricks Lakehouse中

Databricks提供了多種方法來幫助您將數據加載到由Delta Lake支持的數據庫中。Databricks建議使用Auto Loader從雲對象存儲中獲取增量數據。添加數據UI為快速上傳本地文件或連接到外部數據源提供了許多選項。

運行您的第一個ETL工作負載

如果你還沒有在Databricks上使用過Auto Loader,那就從教程開始吧。看到在Databricks上運行第一個ETL工作負載

自動加載程序

自動加載程序增量和有效地處理新數據文件,因為它們到達雲存儲,而不需要額外的設置。自動加載器提供了一個結構化的流源cloudFiles.給定雲文件存儲上的輸入目錄路徑cloudFilesSource在新文件到達時自動處理它們,還可以選擇處理該目錄中的現有文件。

自動化ETL與Delta活動表和自動加載器

可以簡化可伸縮的增量攝取基礎設施的部署自動加載器和Delta活表.注意,Delta Live Tables沒有使用筆記本電腦中的標準交互式執行,而是強調為生產做好準備的基礎設施的部署。

上傳本地數據文件或連接外部數據源

您可以安全地上傳本地數據文件或從外部源攝取數據以創建表。看到使用添加數據UI加載數據

使用第三方工具將數據加載到Databricks

Databricks驗證技術合作夥伴集成,使您能夠將數據加載到Databricks中。這些集成支持從各種來源向Databricks攝取低代碼、可擴展的數據。看到技術合作夥伴.一些技術合作夥伴的特色Databricks合作夥伴連接,它提供了一個UI,可以簡化將第三方工具連接到您的湖庫數據。

複製到

複製到允許SQL用戶冪等增量地將數據從雲對象存儲加載到Delta Lake表中。它可以用於Databricks SQL、筆記本和Databricks job。

何時使用COPY INTO,何時使用Auto Loader

這裏有一些事情要考慮在自動加載和複製進入之間進行選擇:

  • 如果要以數千為單位攝取文件,可以使用複製.如果您希望文件在一段時間內達到數百萬或更多,請使用自動加載器。與COPY INTO相比,Auto Loader需要更少的總操作來發現文件,並且可以將處理分成多個批次,這意味著Auto Loader在規模上更便宜,更高效。

  • 如果您的數據模式要頻繁演變,Auto Loader提供了更好的模式推斷和演變的原語。看到在Auto Loader中配置模式推斷和進化了解更多詳情。

  • 使用COPY INTO加載重新上傳文件的子集可能更容易管理。使用Auto Loader,重新處理選定的文件子集比較困難。但是,您可以使用COPY INTO在自動加載器流同時運行時重新加載文件子集。

關於Auto Loader的簡要概述和演示,以及COPY INTO,請觀看這個YouTube視頻(2分鍾)。

使用Apache Spark從外部源加載數據

您可以使用Apache Spark連接到各種數據源。看到與Databricks上的外部數據進行交互有關連接的選項列表和示例。

查看在數據攝取期間捕獲的文件元數據

Apache Spark在加載數據時自動捕獲源文件的數據。Databricks允許您使用文件元數據列

上傳電子表格導出到Databricks

通過上傳數據界麵可以上傳CSV、TSV或JSON文件。看到上傳數據到Databricks

將數據應用程序遷移到Databricks

將現有的數據應用程序遷移到Databricks,這樣您就可以在單個平台上處理來自多個源係統的數據。Beplay体育安卓版本看到將數據應用程序遷移到Databricks