將數據加載到Databricks Lakehouse中
Databricks提供了多種方法來幫助您將數據加載到由Delta Lake支持的數據庫中。Databricks建議使用Auto Loader從雲對象存儲中獲取增量數據。添加數據UI為快速上傳本地文件或連接到外部數據源提供了許多選項。
運行您的第一個ETL工作負載
如果你還沒有在Databricks上使用過Auto Loader,那就從教程開始吧。看到在Databricks上運行第一個ETL工作負載.
自動加載程序
自動加載程序增量和有效地處理新數據文件,因為它們到達雲存儲,而不需要額外的設置。自動加載器提供了一個結構化的流源cloudFiles
.給定雲文件存儲上的輸入目錄路徑cloudFiles
Source在新文件到達時自動處理它們,還可以選擇處理該目錄中的現有文件。
自動化ETL與Delta活動表和自動加載器
可以簡化可伸縮的增量攝取基礎設施的部署自動加載器和Delta活表.注意,Delta Live Tables沒有使用筆記本電腦中的標準交互式執行,而是強調為生產做好準備的基礎設施的部署。
上傳本地數據文件或連接外部數據源
您可以安全地上傳本地數據文件或從外部源攝取數據以創建表。看到使用添加數據UI加載數據.
使用第三方工具將數據加載到Databricks
Databricks驗證技術合作夥伴集成,使您能夠將數據加載到Databricks中。這些集成支持從各種來源向Databricks攝取低代碼、可擴展的數據。看到技術合作夥伴.一些技術合作夥伴的特色Databricks合作夥伴連接,它提供了一個UI,可以簡化將第三方工具連接到您的湖庫數據。
複製到
複製到允許SQL用戶冪等增量地將數據從雲對象存儲加載到Delta Lake表中。它可以用於Databricks SQL、筆記本和Databricks job。
何時使用COPY INTO,何時使用Auto Loader
這裏有一些事情要考慮在自動加載和複製進入之間進行選擇:
如果要以數千為單位攝取文件,可以使用
複製成
.如果您希望文件在一段時間內達到數百萬或更多,請使用自動加載器。與COPY INTO相比,Auto Loader需要更少的總操作來發現文件,並且可以將處理分成多個批次,這意味著Auto Loader在規模上更便宜,更高效。如果您的數據模式要頻繁演變,Auto Loader提供了更好的模式推斷和演變的原語。看到在Auto Loader中配置模式推斷和進化了解更多詳情。
使用COPY INTO加載重新上傳文件的子集可能更容易管理。使用Auto Loader,重新處理選定的文件子集比較困難。但是,您可以使用COPY INTO在自動加載器流同時運行時重新加載文件子集。
關於Auto Loader的簡要概述和演示,以及COPY INTO,請觀看這個YouTube視頻(2分鍾)。
使用Apache Spark從外部源加載數據
您可以使用Apache Spark連接到各種數據源。看到與Databricks上的外部數據進行交互有關連接的選項列表和示例。
查看在數據攝取期間捕獲的文件元數據
Apache Spark在加載數據時自動捕獲源文件的數據。Databricks允許您使用文件元數據列.
上傳電子表格導出到Databricks
通過上傳數據界麵可以上傳CSV、TSV或JSON文件。看到上傳數據到Databricks.
將數據應用程序遷移到Databricks
將現有的數據應用程序遷移到Databricks,這樣您就可以在單個平台上處理來自多個源係統的數據。Beplay体育安卓版本看到將數據應用程序遷移到Databricks.