這顯然是一個已知問題,磚有自己的csv格式的處理程序可以處理這個問題
https://github.com/databricks/spark-csv
SQL APICSV數據來源火花可以推斷數據類型:
使用com.databricks.spark創建cars表。csv選項(路徑”的汽車。csv”,標題“真實”,inferSchema“真正的”)
您還可以指定列的名稱和類型在DDL。
創建表的汽車(yearMade雙,carMake字符串,carModel字符串,字符串,評論空字符串)使用com.databricks.spark。csv選項(路徑”的汽車。csv”,標題“真正的”)
Scala API
火花1.4 +:
自動推斷模式(數據類型),否則一切都是假設字符串:
進口org.apache.spark.sql.SQLContextval sqlContext = new sqlContext (sc) val df = sqlContext。讀.format (com.databricks.spark.csv) .option(“標題”、“true”) / /使用所有文件的第一行標題.option (“inferSchema”、“true”) / /自動推斷數據類型.load (“cars.csv”)
val selectedData = df。選擇selectedData(“年”、“模型”)。寫.format (com.databricks.spark.csv) .option(“頭”,“真正的”)
.save (“newcars.csv”)