解決:讀文件從dbfs pd.read_csv()使用datab…頁3 -磚- 16359

hamzatazib96 · ‎08-18-2021

你好所有的,

如標題所述,這是我的問題:

1。我用databricks-connect為了向磚集群發送工作

2。“本地”環境是一個AWS EC2

3所示。我想讀一個CSV文件,DBFS(磚)

pd.read_csv ()

。原因是它太大了

spark.read.csv ()

然後

.toPandas ()

(每次崩潰)。

4所示。當我運行

pd.read_csv (“/ dbfs / FileStore / some_file”)

我得到一個

FileNotFoundError

因為它指向當地S3 bucket而不是dbfs。有辦法做我想做的事(如改變大熊貓尋找文件有一些選項)?

提前謝謝!

匿名 · ‎11-24-2021

嗨@Kaniz開羅,

我有類似的問題,當用databricks-connect Azure。我無法讀取數據,已經安裝dbfs(從datalake gen2)。Azure磚內的數據可讀筆記本環境從databricks-connect但不是。

Kaniz · ‎11-24-2021

嗨@Arturo Amador,請提及你的DBR版本。

匿名 · ‎11-24-2021

你好,

我的DBR:

9.1 LTS(包括Apache火花3.1.2,Scala 2.12)

匿名 · ‎11-24-2021

@Kaniz開羅,

在databricks-connect通過所有的測試。我也能夠運行中提供的示例文檔(不從dbfs)讀取數據

Kaniz · ‎11-24-2021

嗨@Arturo Amador,你想分享你所做的更改,以得到解決?

磚