我的數據在哪裏?

磚使用共同責任模型創建、配置和訪問塊存儲卷和對象存儲位置在您的雲賬戶。加載數據與磚的結果或保存數據文件存儲在塊存儲或對象存儲。以下矩陣提供了一個快速參考:

操作

位置

UI數據上傳

對象存儲

DBFS文件上傳

對象存儲

上傳數據和自動加載程序

對象存儲

上傳數據複製

對象存儲

創建表

對象存儲

與Apache火花保存數據

對象存儲

保存數據和熊貓

塊存儲

從網絡下載數據在一個筆記本上

塊存儲

對象存儲是什麼?

在雲計算中,對象存儲或blob存儲是指存儲容器,保持數據作為對象,每個對象組成的數據,元數據和一個全局唯一資源標識符(URI)。在對象存儲數據操作業務往往局限於創建、讀取、更新和刪除(CRUD)通過REST API接口。一些對象存儲產品包括版本管理和生命周期管理等功能。對象存儲有以下好處:

  • 高可用性、耐久性和可靠性。

  • 低成本存儲相比其他存儲選項。

  • 無限可擴展(總量有限的存儲在一個給定的區域雲)。

大多數雲計算數據湖泊之上的開源雲對象存儲的數據格式。

磚使用對象存儲的如何?

對象存儲是存儲的主要形式使用磚對大多數操作。磚的文件係統(DBFS)允許磚在對象存儲用戶與文件類似於任何其他文件係統如何。除非你特別配置表對一個外部數據係統,所有表中創建數據磚在雲存儲數據對象存儲。

三角洲湖文件存儲在雲對象存儲數據磚Lakehouse提供數據基礎。

你如何配置雲對象存儲數據磚嗎?

磚使用對象存儲雲存儲的數據文件和表。在工作區部署,磚配置雲被稱為對象存儲位置DBFS根。您可以配置連接其他雲對象存儲位置在您的帳戶。

在幾乎所有情況下,數據文件與使用Apache磚雲存儲在對象存儲的火花。看到下麵的文章指導配置連接:

塊存儲是什麼?

在雲計算、塊存儲或磁盤存儲是指存儲卷,與傳統硬盤驅動器(hdd)或固態硬盤(ssd),也簡稱為“硬盤”。當部署塊存儲在雲計算環境中,通常一個邏輯分區的一個或多個物理驅動器部署。實現產品和雲供應商之間略有不同,但通常是發現在實現以下特征:

  • 所有的虛擬機(vm)需要一個附加塊存儲卷。

  • 文件和程序安裝一塊存儲卷持續隻要塊存儲卷依然存在。

  • 塊存儲卷通常用於臨時數據存儲。

  • 塊存儲卷附加到虛擬機通常與虛擬機刪除。

磚使用塊存儲如何?

當你打開計算資源、數據磚配置和部署vm和高度塊存儲卷。這個塊存儲用於存儲臨時數據文件的生命周期計算。這些文件包括操作係統和安裝庫,除了數據使用的磁盤高速緩存。而Apache火花使用高效的並行化和數據塊存儲在後台加載,大多數代碼運行在磚不直接保存或加載數據塊存儲。

您可以運行任意代碼如Python或Bash命令使用塊存儲節點附加到你的驅動。看到文件係統驅動程序訪問文件

在Python工作區啟用工作區文件後,用戶可以保存和加載數據和文件存儲與筆記本電腦,而不是需要與塊存儲驅動程序。看到以編程方式與工作區文件