我想直接加載一個csv文件火花dataframe磚。我嚐試以下代碼:
url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B" from pyspark import SparkFiles spark.sparkContext.addFile(url) df = spark.read.csv(SparkFiles.get("eco2mix-national-tr.csv"), header=True, inferSchema= True)
我得到了以下錯誤:
路徑不存在:dbfs: / local_disk0 spark-c03e8325-0ab6-4c2e-bffb-c9d290283b31 / userFiles-a507dd96-cc63-4e47-9b0f-44d2a940bb10 / eco2mix-national-tr.csv
謝謝
所以我自己測試了,我想我發現了問題:
addfile()不會把一個文件叫做“eco2mix-national-tr。csv”,但一個文件名為“下載”。
你可以通過使用% sh神奇的命令
ls " / local_disk0 /火花-…/ userFiles /”
你會得到一個列表文件,沒有eco2mix但下載的文件。
下載文件的內容,你可以做一隻貓命令:
% sh
貓”/ local_disk0 /火花-…/ userFiles -…/下載”
您將看到的內容。
與spark.read明年你一定要讀這本書。csv和文件:/ /前綴。
所以這使得:
url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv" from pyspark import SparkFiles sc.addFile(url) path = SparkFiles.get('download') df = spark.read.csv("file://" + path, header=True, inferSchema= True, sep = ";")
這給:
它總是一個好主意使用本地文件時實際看一下目錄文件的問題,做一隻貓。
所以我自己測試了,我想我發現了問題:
addfile()不會把一個文件叫做“eco2mix-national-tr。csv”,但一個文件名為“下載”。
你可以通過使用% sh神奇的命令
ls " / local_disk0 /火花-…/ userFiles /”
你會得到一個列表文件,沒有eco2mix但下載的文件。
下載文件的內容,你可以做一隻貓命令:
% sh
貓”/ local_disk0 /火花-…/ userFiles -…/下載”
您將看到的內容。
與spark.read明年你一定要讀這本書。csv和文件:/ /前綴。
所以這使得:
url = " https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-tr/download/?形式at=csv" from pyspark import SparkFiles sc.addFile(url) path = SparkFiles.get('download') df = spark.read.csv("file://" + path, header=True, inferSchema= True, sep = ";")
這給:
它總是一個好主意使用本地文件時實際看一下目錄文件的問題,做一隻貓。