讀取數據形式url使用火花,community edition,路徑相關的錯誤,有什麼建議嗎?
url = " https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/adult.csv "從pyspark進口SparkFiles spark.sparkContext.addFile (url) # sc.addFile (url) # sqlContext = sqlContext (sc) # df = sqlContext.read.csv (SparkFiles.get (“adult.csv”),頭= True, inferSchema = True) df = spark.read.csv (SparkFiles.get (“adult.csv”),頭= True, inferSchema = True)
錯誤:
路徑不存在:dbfs: / local_disk0 /火花- 9 - f23ed57 - 133 - e - 41 - d5 - 91 b2 - 12555 d641961 / userfiles d252b3ba - 499 c - 42 c9 - be48 - 96358357 - fb75 / adult.csv
你好,
我麵臨同樣的問題,abose以下錯誤:
路徑不存在:dbfs: / local_disk0 /火花- 9 - f23ed57 - 133 - e - 41 - d5 - 91 b2 - 12555 d641961 / userfiles d252b3ba - 499 c - 42 c9 - be48 - 96358357 - fb75 / adult.csv
很遺憾這個鏈接是死:https://forums.m.eheci.com/questions/10648/upload -當地-文件- dbfs - 1. - html
可以給解決了?
謝謝
你好,
我們也可以直接讀取CSV DBFS無需編寫。
Scala火花的方法
進口org.apache.commons.io.IOUtils / / jar將已經在火花集群不必擔心進口java.net.URL val urlfile =新的URL (" https://people.sc.fsu.edu/ ~ jburkardt /數據/ csv / airtravel.csv”) val testDummyCSV = IOUtils.toString (urlfile,“utf - 8”) .lines.toList.toDS () val testcsv = .read火花。選項(“標題”,真的).option (“inferSchema”,真正的). csv (testDummyCSV)
顯示器(testcsv)
筆記本連接