我想直接加載一個csv文件火花dataframe磚。我嚐試以下代碼:
url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B" from pyspark import SparkFiles spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("eco2mix-national-tr.csv"), header=True, inferSchema= True)
我得到了以下錯誤:
路徑不存在:dbfs: / local_disk0 spark-c03e8325-0ab6-4c2e-bffb-c9d290283b31 / userFiles-a507dd96-cc63-4e47-9b0f-44d2a940bb10 / eco2mix-national-tr.csv
謝謝
你好,
您還可以使用以下。
進口org.apache.commons.io.IOUtils / / jar將已經在火花集群不必擔心進口java.net.URL val urlfile =新的URL (" https://people.sc.fsu.edu/ ~ jburkardt /數據/ csv / airtravel.csv”) val testDummyCSV = IOUtils.toString (urlfile,“utf - 8”) .lines.toList.toDS () val testcsv = .read火花。選項(“標題”,真的).option (“inferSchema”,真正的). csv (testDummyCSV)顯示(testcsv)