開始
加載和管理數據
處理數據
政府
引用和資源
2023年8月3日更新
給我們反饋
磚運行時包括熊貓標準的Python包,允許您創建和利用熊貓DataFrames磚筆記本和工作。
在磚運行時的10.0及以上,熊貓API火花提供熟悉的熊貓命令之上PySpark DataFrames。你也可以熊貓和PySpark之間轉換DataFrames。
Apache火花包括Arrow-optimized執行Python的形式邏輯熊貓api函數,允許用戶直接應用熊貓轉換PySpark DataFrames。Apache火花也支持熊貓udf使用類似的Arrow-optimizations任意Python中定義的用戶功能。
您可以使用熊貓將數據存儲在許多不同的位置數據磚。你的能力來存儲和加載數據從一些位置取決於配置管理員設定的工作空間。
請注意
磚建議將生產數據存儲在雲存儲對象。看到穀歌雲存儲。
快速勘探和數據不敏感信息,您可以安全地使用相對路徑或保存數據DBFS,比如下麵的例子:
進口熊貓作為pddf=pd。DataFrame([[“一個”,1),(“b”,2),(“c”,3]])df。to_csv(”。/ relative_path_test.csv”)df。to_csv(“/ dbfs / dbfs_test.csv”)
你可以探索文件寫入DBFS和% fs神奇的命令,如以下示例。請注意,/ dbfs這些命令的目錄是根路徑。
% fs
/ dbfs
% fs ls
當您保存相對路徑,文件的位置取決於你執行你的代碼的地方。如果你使用磚筆記本,您的數據文件保存到卷存儲集群的司機。數據存儲在這個位置是被永久刪除,當集群終止。如果您正在使用磚回購啟用了任意文件支持,數據保存當前項目的根源。在這兩種情況下,您可以探索使用的文件% sh神奇的命令,允許簡單的bash操作相對於當前的根目錄,如以下示例:
% sh
% sh ls
對磚存儲各種文件的更多信息,參見如何處理文件數據磚嗎。
磚提供了大量的選項為探索促進上傳數據到工作區。熊貓的首選方法將數據加載不同取決於你如何加載數據到工作區。
如果你有小數據文件存儲在本地機器上與筆記本電腦,你可以上傳你的數據和代碼一起回購。然後,您可以使用相對路徑加載數據文件。
磚提供廣泛的基於ui選項數據加載。大多數這些選項δ表存儲你的數據。你可以讀一本差值表火花DataFrame,然後它轉換為一個熊貓DataFrame。
如果你有使用DBFS或相對路徑保存的數據文件,您可以使用DBFS或相對路徑重新加載這些數據文件。下麵的代碼提供了一個示例:
進口熊貓作為pddf=pd。read_csv(”。/ relative_path_test.csv”)df=pd。read_csv(“/ dbfs / dbfs_test.csv”)
你可以直接從gc數據加載使用熊貓和一個完全合格的URL。您需要提供訪問雲數據雲憑證。
df=pd。read_csv(f“gs: / /{bucket_name}/{file_path}”,storage_options={“令牌”:憑證})