我如何創建一個表與冷杉從CSV文件……-磚- 29460

tripplehay777 · ‎09-01-2016

我有一個csv文件中的第一列包含的數據字典(鍵:值)。(見下文)

我試圖創建一個表,將csv文件直接上傳到磚,但文件無法讀取。有沒有辦法讓我變平或將第一列轉換成excel表與每個鍵列名稱和值的行嗎?

MaxStruever · ‎08-15-2019

這顯然是一個已知問題,磚有自己的csv格式的處理程序可以處理這個問題

SQL API

CSV數據來源火花可以推斷數據類型:

使用com.databricks.spark創建cars表。csv選項(路徑”的汽車。csv”,標題“真實”,inferSchema“真正的”)

您還可以指定列的名稱和類型在DDL。

創建表的汽車(yearMade雙,carMake字符串,carModel字符串,字符串,評論空字符串)使用com.databricks.spark。csv選項(路徑”的汽車。csv”,標題“真正的”)

Scala API

火花1.4 +:

自動推斷模式(數據類型),否則一切都是假設字符串:

進口org.apache.spark.sql.SQLContext

val sqlContext = new sqlContext (sc) val df = sqlContext。讀.format (com.databricks.spark.csv) .option(“標題”、“true”) / /使用所有文件的第一行標題.option (“inferSchema”、“true”) / /自動推斷數據類型.load (“cars.csv”)

val selectedData = df。選擇selectedData(“年”、“模型”)。寫.format (com.databricks.spark.csv) .option(“頭”,“真正的”)

.save (“newcars.csv”)

磚

我如何創建一個表從CSV文件與第一列中的數據字典格式(JSON) ?