你好,
我們使用磚在AWS和我們最近開始使用三角洲表。
我們用R。
雖然下麵的代碼[1]在一本筆記本,當磚集群上運行它從RStudio我們得到以下錯誤:
. lang。IllegalStateException:找不到REPL id在引發局部屬性。
#當前模式不支持事務寫不同的集群。
#你可以禁用多集群中通過設置“spark.databricks.delta.multiClusterWrites.enabled”“假”。
#如果這是禁用的,寫一個表必須來自一個集群。
#請檢查https://docs.m.eheci.com/delta/delta-intro.html frequently-asked-questions-faq為更多的細節。
我們試著運行時8.1,10.4和11.1 beta。代碼設置spark.databricks.delta.multiClusterWrites.enabled為false時隻運行良好。
我們應該做些什麼來運行multicluster寫支持嗎?
謝謝你!
拉杜
[1]
自衛隊= SparkR: as.DataFrame (df)
如果(低(dataset_name) % % SparkR:表名(db_name)) {
#添加數據。不需要指定分區,將使用的文件。
SparkR:: write.df (
自衛隊,
路徑=低(paste0 (dbfs: / user /蜂巢/倉庫/ ',db_name,”。db / ', dataset_name)),
模式=“追加”,
源=“三角洲”,
mergeSchema = TRUE
)
其他}{
#首先創建磚三角洲管理表
SparkR:: saveAsTable (
自衛隊,
表名=低(paste0 (db_name”。”,dataset_name)),
模式=“追加”,
源=“三角洲”,
mergeSchema = TRUE
)
#覆蓋表信息與分區信息
SparkR:: write.df (
自衛隊,
路徑=低(paste0 (dbfs: / user /蜂巢/倉庫/ ',db_name,”。db / ', dataset_name)),
模式=“覆蓋”,
源=“三角洲”,
overwriteSchema = TRUE,
partitionBy = c(“公司”)
)
}