CSV文件

本文提供了示例閱讀和寫作與磚使用Python的CSV文件,Scala, R, SQL。

請注意

您可以使用SQL來讀取CSV數據直接或通過使用一個臨時視圖。磚建議使用一個臨時視圖。直接閱讀CSV文件有以下缺點:

你不能指定數據源的選擇。
你不能指定的模式的數據。

選項

你可以為CSV文件數據源配置幾個選項。看到下麵的Apache火花參考文章支持讀寫選項。

讀
- Python
- Scala
寫
- Python
- Scala

與畸形的CSV記錄工作

當閱讀CSV文件指定的模式,可能是文件中的數據不匹配的模式。例如,字段包含城市名稱不解析為一個整數。結果取決於解析器運行的模式:

寬容的(默認):null插入字段,不能正確解析
DROPMALFORMED:滴線包含字段不能被解析
FAILFAST:中止閱讀如果發現任何畸形數據

設置模式,使用模式選擇。

             diamonds_df=(火花。讀。格式(“csv”)。選項(“模式”,“寬容”)。負載(“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”))
            

在寬容的模式可以檢查行不能正確解析使用下列方法之一:

您可以提供一個自定義的路徑選擇badRecordsPath記錄腐敗記錄到一個文件。
您可以添加列_corrupt_record模式提供給DataFrameReader審查合成DataFrame腐敗記錄。

請注意

的badRecordsPath選擇優先於_corrupt_record,這意味著畸形行寫入路徑沒有出現在合成DataFrame提供。

畸形的默認行為記錄變更時使用獲救的數據列。

發現畸形行筆記本

在新標簽頁打開筆記本

獲救的數據列

請注意

該特性支持磚運行時的8.3(不支持)及以上。

當使用寬容的模式,您可以啟用獲救的數據列捕捉任何數據,沒有解析,因為一個或多個字段的記錄有以下問題:

缺席所提供的模式。
不匹配的數據類型提供了模式。
有一個情況不匹配的字段名稱提供模式。

獲救的數據列返回一個JSON文檔,其中包含的列已經獲救,和源文件路徑的記錄(源文件路徑可以在磚運行時8.3及以上)。刪除源文件路徑從獲救的數據列,您可以設置SQL配置spark.conf.set (“spark.databricks.sql.rescuedDataColumn.filePath.enabled”,“假”)。您可以通過設置啟用獲救的數據列選項rescuedDataColumn列名在讀取數據時,如_rescued_data與spark.read.option (“rescuedDataColumn”,“_rescued_data”) .format (csv) .load(<路徑>)。

當解析CSV解析器支持三種模式記錄:寬容的,DROPMALFORMED,FAILFAST。一起使用時rescuedDataColumn、數據類型不匹配不導致記錄被刪除DROPMALFORMED模式或拋出一個錯誤FAILFAST模式。腐敗的記錄是,不完整或畸形CSV-are下降或拋出錯誤。

當rescuedDataColumn被用在寬容的模式,適用於以下規則腐敗的記錄: