我的數據在哪裏?
磚使用共同責任模型創建、配置和訪問塊存儲卷和對象存儲位置在您的雲賬戶。加載數據與磚的結果或保存數據文件存儲在塊存儲或對象存儲。以下矩陣提供了一個快速參考:
操作 |
位置 |
---|---|
UI數據上傳 |
對象存儲 |
DBFS文件上傳 |
對象存儲 |
上傳數據和自動加載程序 |
對象存儲 |
上傳數據 |
對象存儲 |
創建表 |
對象存儲 |
與Apache火花保存數據 |
對象存儲 |
保存數據和熊貓 |
塊存儲 |
從網絡下載數據在一個筆記本上 |
塊存儲 |
對象存儲是什麼?
在雲計算中,對象存儲或blob存儲是指存儲容器,保持數據作為對象,每個對象組成的數據,元數據和一個全局唯一資源標識符(URI)。在對象存儲數據操作業務往往局限於創建、讀取、更新和刪除(CRUD)通過REST API接口。一些對象存儲產品包括版本管理和生命周期管理等功能。對象存儲有以下好處:
高可用性、耐久性和可靠性。
低成本存儲相比其他存儲選項。
無限可擴展(總量有限的存儲在一個給定的區域雲)。
大多數雲計算數據湖泊之上的開源雲對象存儲的數據格式。
磚使用對象存儲的如何?
對象存儲是存儲的主要形式使用磚對大多數操作。磚的文件係統(DBFS)允許磚在對象存儲用戶與文件類似於任何其他文件係統如何。除非你特別配置表對一個外部數據係統,所有表中創建數據磚在雲存儲數據對象存儲。
三角洲湖文件存儲在雲對象存儲數據磚Lakehouse提供數據基礎。
你如何配置雲對象存儲數據磚嗎?
磚使用對象存儲雲存儲的數據文件和表。在工作區部署,磚配置雲被稱為對象存儲位置DBFS根。您可以配置連接其他雲對象存儲位置在您的帳戶。
在幾乎所有情況下,數據文件與使用Apache磚雲存儲在對象存儲的火花。看到下麵的文章指導配置連接:
塊存儲是什麼?
在雲計算、塊存儲或磁盤存儲是指存儲卷,與傳統硬盤驅動器(hdd)或固態硬盤(ssd),也簡稱為“硬盤”。當部署塊存儲在雲計算環境中,通常一個邏輯分區的一個或多個物理驅動器部署。實現產品和雲供應商之間略有不同,但通常是發現在實現以下特征:
所有的虛擬機(vm)需要一個附加塊存儲卷。
文件和程序安裝一塊存儲卷持續隻要塊存儲卷依然存在。
塊存儲卷通常用於臨時數據存儲。
塊存儲卷附加到虛擬機通常與虛擬機刪除。
磚使用塊存儲如何?
當你打開計算資源、數據磚配置和部署vm和高度塊存儲卷。這個塊存儲用於存儲臨時數據文件的生命周期計算。這些文件包括操作係統和安裝庫,除了數據使用的磁盤高速緩存。而Apache火花使用高效的並行化和數據塊存儲在後台加載,大多數代碼運行在磚不直接保存或加載數據塊存儲。
您可以運行任意代碼如Python或Bash命令使用塊存儲節點附加到你的驅動。看到文件係統驅動程序訪問文件。
在Python工作區啟用工作區文件後,用戶可以保存和加載數據和文件存儲與筆記本電腦,而不是需要與塊存儲驅動程序。看到以編程方式與工作區文件。