取消
顯示的結果
而不是尋找
你的意思是:

讀文件從dbfs pd.read_csv使用databricks-connect ()

hamzatazib96
新的貢獻者三世

你好所有的,

如標題所述,這是我的問題:

1。我用databricks-connect為了向磚集群發送工作

2。“本地”環境是一個AWS EC2

3所示。我想讀一個CSV文件,DBFS(磚)

pd.read_csv ()
。原因是它太大了
spark.read.csv ()
然後
.toPandas ()
(每次崩潰)。

4所示。當我運行

pd.read_csv (“/ dbfs / FileStore / some_file”)
我得到一個
FileNotFoundError
因為它指向當地S3 bucket而不是dbfs。有辦法做我想做的事(如改變大熊貓尋找文件有一些選項)?

提前謝謝!

1接受解決方案

接受的解決方案

匿名
不適用

你好,

一些研究之後,我發現大熊貓API隻讀取本地文件。這意味著,即使read_csv命令在磚筆記本的工作環境中,它不會工作在使用databricks-connect(熊貓從筆記本中讀取本地環境)。

周圍工作是使用pyspark spark.read.format (csv) API來讀取遠程文件並添加一個“.toPandas()最後,我們得到一個熊貓dataframe。

df_pandas = spark.read.format (csv) .options(頭= '真的').load(“路徑/ / /遠程/ dbfs /文件係統/ ').toPandas ()

在原帖子查看解決方案

28日回複28

Kaniz
社區經理
社區經理

你好@hamzatazib96!我的名字叫Kaniz,和我是一個技術主持人。很高興認識你,謝謝你的問題!看看你的同行在論壇上先回答你的問題。否則我們將很快跟進與回複。

User16763506586
貢獻者

你好,

如果你改變它下麵會發生什麼呢?

pd.read_csv(“文件:/ dbfs / FileStore / some_file”)

venter2021
新的貢獻者二世

用pd嚐試它。read_excel沒有幫助。

venter2021
新的貢獻者二世

我有一個類似的問題:

  • 我從內部運行databricks-connect碼頭工人容器
  • 我有一個xls文件存儲在Azure文件存儲、安裝dbfs
  • 我想讀這個excel文件
pd.read_excel (“dbfs: / mnt /道路/ / file.xls”)

有一個解決方案被發現呢?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map