解決:Re:讀csv直接從url pyspark頁2 -磚- 12053

RantoB · ‎10-29-2021

我想直接加載一個csv文件火花dataframe磚。我嚐試以下代碼:

url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B" from pyspark import SparkFiles spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("eco2mix-national-tr.csv"), header=True, inferSchema= True)

我得到了以下錯誤:

路徑不存在:dbfs: / local_disk0 spark-c03e8325-0ab6-4c2e-bffb-c9d290283b31 / userFiles-a507dd96-cc63-4e47-9b0f-44d2a940bb10 / eco2mix-national-tr.csv

謝謝

RantoB · ‎10-29-2021

太好了,這是工作。謝謝你！

Piper_Wilson · ‎10-29-2021

@Bertrand伯克——如果@Werner Stinckens回答你的問題,你會紀念他的最好的答案嗎?這將幫助他人快速找到解決方案。

User16752246494 · ‎11-26-2021

你好,

您還可以使用以下。

進口org.apache.commons.io.IOUtils / / jar將已經在火花集群不必擔心進口java.net.URL val urlfile =新的URL (" https://people.sc.fsu.edu/ ~ jburkardt /數據/ csv / airtravel.csv”) val testDummyCSV = IOUtils.toString (urlfile,“utf - 8”) .lines.toList.toDS () val testcsv = .read火花。選項(“標題”,真的).option (“inferSchema”,真正的). csv (testDummyCSV)顯示(testcsv)

磚

閱讀與pyspark csv直接從url