你好所有的,
如標題所述,這是我的問題:
1。我用databricks-connect為了向磚集群發送工作
2。“本地”環境是一個AWS EC2
3所示。我想讀一個CSV文件,DBFS(磚)
pd.read_csv ()
。原因是它太大了spark.read.csv ()
然後.toPandas ()
(每次崩潰)。
4所示。當我運行
pd.read_csv (“/ dbfs / FileStore / some_file”)
我得到一個FileNotFoundError
因為它指向當地S3 bucket而不是dbfs。有辦法做我想做的事(如改變大熊貓尋找文件有一些選項)?
提前謝謝!