連接到Azure Blob存儲與WASB(遺留)
微軟已經棄用Windows Azure存儲Blob司機(WASB)Azure Blob存儲讚成Azure Blob文件係統驅動程序(沛富);看到連接到數據存儲Gen2湖和Blob存儲Azure。沛富對WASB有很多好處;看到Azure文檔沛富。
本文提供了維護代碼,文檔使用WASB司機。磚建議使用沛富Azure Blob存儲的所有連接。
配置在磚WASB憑證
WASB驅動程序允許您使用一個存儲帳戶訪問鍵或者一個共享訪問簽名(SAS)。(如果你是讀取數據從公共存儲賬戶,您不需要配置憑證)。
磚推薦使用秘密當你需要通過憑證在磚。秘密可以包含所有用戶訪問秘密的範圍。
你可以通過憑證:
火花的集群配置的範圍
作用域的筆記本
磚建議升級您的所有連接使用沛富訪問Azure Blob存儲WASB提供類似的訪問模式。使用沛富交互時最好的安全性和性能Azure的Blob存儲。
配置集群憑證,集火花配置當您創建集群屬性。憑證集中在集群級別可用於所有用戶訪問集群。
配置notebook-scoped憑證,使用spark.conf.set ()
。憑證在筆記本級別可以通過筆記本的所有用戶訪問。
設置Azure Blob存儲憑證訪問密鑰存儲賬戶
存儲帳戶訪問鍵授予完全訪問所有容器內存儲賬戶。雖然這種模式是有用的為原型,避免在生產中使用它來減少風險與允許不受限製地訪問相關生產數據。
火花。相依。集(“fs.azure.account.key < storage-account-name > .blob.core.windows.net”。,“< storage-account-access-key >”)
你可以升級帳戶關鍵uri使用沛富。有關更多信息,請參見連接到數據存儲Gen2湖和Blob存儲Azure。
Azure Blob存儲使用DataFrame API訪問
Apache火花DataFrame API可以使用憑證配置在筆記本或集群級別。所有WASB司機uri指定容器和存儲帳戶名稱。目錄名稱是可選的,可以指定多個嵌套目錄相對於容器。
wasbs:/ / <容器- - - - - -的名字> @ <存儲- - - - - -賬戶- - - - - -的名字>。團。核心。窗戶。淨/ <目錄- - - - - -的名字>
以下代碼示例展示了如何使用DataFrames API磚公用事業一個容器內與一個指定的目錄。
df=火花。讀。格式(“鋪”)。負載(“wasbs: / / <容器名稱> @ < storage-account-name >.blob.core.windows.net/ <目錄名稱>”)dbutils。fs。ls(“wasbs: / / <容器名稱> @ < storage-account-name >.blob.core.windows.net/ <目錄名稱>”)
更新沛富而不是WASB,更新您的uri。有關更多信息,請參見訪問Azure存儲
與SQL Azure Blob存儲的訪問
憑證集中在筆記本的會話配置不訪問筆記本運行引發的SQL。
後一個帳戶訪問密鑰或SAS是建立在集群配置中,您可以使用標準的SQL查詢Azure的火花Blob存儲:
——SQL創建數據庫<db- - - - - -的名字>位置“wasbs: / / <容器名稱> @ < storage-account-name >.blob.core.windows.net/”;
沛富而不是WASB更新,更新您的uri;看到訪問Azure存儲