解決:閱讀csv直接從url pyspark -磚- 12053

RantoB · ‎10-29-2021

我想直接加載一個csv文件火花dataframe磚。我嚐試以下代碼:

url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B" from pyspark import SparkFiles spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("eco2mix-national-tr.csv"), header=True, inferSchema= True)

我得到了以下錯誤:

路徑不存在:dbfs: / local_disk0 spark-c03e8325-0ab6-4c2e-bffb-c9d290283b31 / userFiles-a507dd96-cc63-4e47-9b0f-44d2a940bb10 / eco2mix-national-tr.csv

謝謝

werners1 · ‎10-29-2021

所以我自己測試了,我想我發現了問題:

addfile()不會把一個文件叫做“eco2mix-national-tr。csv”,但一個文件名為“下載”。

你可以通過使用% sh神奇的命令

ls " / local_disk0 /火花-…/ userFiles /”

你會得到一個列表文件,沒有eco2mix但下載的文件。

下載文件的內容,你可以做一隻貓命令:

% sh

貓”/ local_disk0 /火花-…/ userFiles -…/下載”

您將看到的內容。

與spark.read明年你一定要讀這本書。csv和文件:/ /前綴。

所以這使得:

url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv" from pyspark import SparkFiles sc.addFile(url) path = SparkFiles.get('download') df = spark.read.csv("file://" + path, header=True, inferSchema= True, sep = ";")

這給:

它總是一個好主意使用本地文件時實際看一下目錄文件的問題,做一隻貓。

在原帖子查看解決方案

werners1 · ‎10-29-2021

檢查:

https://stackoverflow.com/questions/57014043/reading-data-from-url-using-spark-databricks-Beplay体育安卓版本platform

基本上“文件:/ /”添加到你的路。

RantoB · ‎10-29-2021

我已經讀過這篇文章,但這不是工作:

路徑不存在:文件:/ local_disk0 / spark-48fd5772-d1a9-40f2-a2f2-bcad38962ed6 userfiles - 0298 f7e7 - 105 c - 4 - c8d a845 - 0975 edd378a0 / eco2mix-national-tr.csv

werners1 · ‎10-29-2021