將數據加載到Databricks Lakehouse中

Databricks提供了多種方法來幫助您將數據加載到由Delta Lake支持的數據庫中。Databricks建議使用Auto Loader從雲對象存儲中獲取增量數據。添加數據UI為快速上傳本地文件或連接到外部數據源提供了許多選項。

運行您的第一個ETL工作負載

如果你還沒有在Databricks上使用過Auto Loader，那就從教程開始吧。看到在Databricks上運行第一個ETL工作負載．

自動加載程序增量和有效地處理新數據文件，因為它們到達雲存儲，而不需要額外的設置。自動加載器提供了一個結構化的流源cloudFiles．給定雲文件存儲上的輸入目錄路徑cloudFilesSource在新文件到達時自動處理它們，還可以選擇處理該目錄中的現有文件。

可以簡化可伸縮的增量攝取基礎設施的部署自動加載器和Delta活表．注意，Delta Live Tables沒有使用筆記本電腦中的標準交互式執行，而是強調為生產做好準備的基礎設施的部署。

您可以安全地上傳本地數據文件或從外部源攝取數據以創建表。看到使用添加數據UI加載數據．

Databricks驗證技術合作夥伴集成，使您能夠將數據加載到Databricks中。這些集成支持從各種來源向Databricks攝取低代碼、可擴展的數據。看到技術合作夥伴．一些技術合作夥伴的特色Databricks合作夥伴連接，它提供了一個UI，可以簡化將第三方工具連接到您的湖庫數據。

複製到允許SQL用戶冪等增量地將數據從雲對象存儲加載到Delta Lake表中。它可以用於Databricks SQL、筆記本和Databricks job。

這裏有一些事情要考慮在自動加載和複製進入之間進行選擇:

如果要以數千為單位攝取文件，可以使用複製成．如果您希望文件在一段時間內達到數百萬或更多，請使用自動加載器。與COPY INTO相比，Auto Loader需要更少的總操作來發現文件，並且可以將處理分成多個批次，這意味著Auto Loader在規模上更便宜，更高效。
如果您的數據模式要頻繁演變，Auto Loader提供了更好的模式推斷和演變的原語。看到在Auto Loader中配置模式推斷和進化了解更多詳情。
使用COPY INTO加載重新上傳文件的子集可能更容易管理。使用Auto Loader，重新處理選定的文件子集比較困難。但是，您可以使用COPY INTO在自動加載器流同時運行時重新加載文件子集。

關於Auto Loader的簡要概述和演示，以及COPY INTO，請觀看這個YouTube視頻(2分鍾)。

您可以使用Apache Spark連接到各種數據源。看到與Databricks上的外部數據進行交互有關連接的選項列表和示例。

Apache Spark在加載數據時自動捕獲源文件的數據。Databricks允許您使用文件元數據列．

通過上傳數據界麵可以上傳CSV、TSV或JSON文件。看到上傳數據到Databricks．

將現有的數據應用程序遷移到Databricks，這樣您就可以在單個平台上處理來自多個源係統的數據。Beplay体育安卓版本看到將數據應用程序遷移到Databricks．