取消
顯示的結果
而不是尋找
你的意思是:

讀文件從dbfs pd.read_csv使用databricks-connect ()

hamzatazib96
新的貢獻者三世

你好所有的,

如標題所述,這是我的問題:

1。我用databricks-connect為了向磚集群發送工作

2。“本地”環境是一個AWS EC2

3所示。我想讀一個CSV文件,DBFS(磚)

pd.read_csv ()
。原因是它太大了
spark.read.csv ()
然後
.toPandas ()
(每次崩潰)。

4所示。當我運行

pd.read_csv (“/ dbfs / FileStore / some_file”)
我得到一個
FileNotFoundError
因為它指向當地S3 bucket而不是dbfs。有辦法做我想做的事(如改變大熊貓尋找文件有一些選項)?

提前謝謝!

28日回複28

匿名
不適用

哎呀!謝謝你,@Arturo Amador !

@hamzatazib96——如果任何解決這個問題的答案,你會高興馬克是最好的嗎?

hamzatazib96
新的貢獻者三世

完成了!感謝所有的答案和幫助!

最好的方法我發現周圍這是簡單地做一個SCP轉移使用磚exe DBFS S3 bucket。流程是:

DBFS - >本地EC2 - > S3 bucket

farazanwar
新的貢獻者二世

我得到同樣的錯誤我已經安裝azure數據湖和可以看到文件但當為背景寫csv文件它給的錯誤

圖像圖像圖像奇怪的是,這在其他時間工作

so16
新的貢獻者二世

請我需要你的幫助,我有同樣的問題後仍然讀你所有的評論。
我用Databricks-connect(版本13.1)pycharm並試圖加載文件上dbfs存儲。

火花= DatabricksSession.builder.remote (
主機=主機,令牌=令牌,cluster_id= c_id) .getOrCreate ()
路徑=“dbfs: / mnt /存儲/ file.csv”
df = spark.read.format (“csv”).option (“頭”,“真正的”).load(路徑)

給我一個錯誤:

pyspark.errors.exceptions.connect。火花ConnectGrpcException: <_InactiveRpcError of RPC that terminated with:
狀態= StatusCode.FAILED_PRECONDITION
細節= " INVALID_STATE:不支持的12.2.x-scala2.12 0611 - 073104 - 1 - kjepouv磚運行時版本。(requestId = 8 c278ab3 - 348 - 4 - fa1 - 9797 - 6 - d58d571eeff)”
debug_error_string = "無名:錯誤收到對等{grpc_message:“INVALID_STATE:不支持的12.2.x-scala2.12 0611 - 073104 - 1 - kjepouv磚運行時版本。(requestId = 8 c278ab3 - 348 - 4 - fa1 - 9797 - 6 - d58d571eeff)”,grpc_status:9, created_time:"2023-07-19T19:52:47.881727713+00:00"}"


歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map