Re: Scala連接磚銅層的……-磚- 25392

BkP · ‎10-28-2022

你好,

我們正在開發一個新的Scala / Java程序需要讀取和處理原始數據存儲在源ADLS並行(這是一個磚環境)的體積源數據非常高(GBs & TBs)。什麼樣的連接需要讀取大量數據以並行方式在這種情況下嗎?JDBC似乎不正確的選擇,因為它不能運行多個線程。同時,三角洲共享已經試過但不工作。你能提供一些指針Scala / Java代碼庫,設計和連通性選項對於這個要求嗎?

注意:這不是一個ETL過程。數據讀取原始數據將通過管理經曆和鈾濃縮的計劃並送往下遊消費申請。我們隻有Gemfire火花集群。

任何指針將會是一個很大的幫助。謝謝提前

謝謝你！

Badal熊貓

BkP · ‎10-28-2022

更多信息:

源數據ADLS從SAP和智能手機等erp。數據格式是拚花和全負荷數據和增量加載數據是可用的。

Kaniz · ‎11-11-2022

嗨@Badal熊貓,我們可以讀文件通過火花DataFrameReader API並將結果寫入三角洲湖。

注意我們使用% scala語言神奇的命令,讓我們運行細胞使用scala。

% scala #定義路徑val rawpath =“路徑”val bronzepath =“路徑”

#讀取文件val文件= spark.read.parquet (rawpath)

BkP · ‎10-31-2022

你好專家。建議在這個問題上嗎? ?標簽有些人我從他之前得到答案。請幫助這個需求或標記可以幫助這個人

@Kaniz Fatma, @Vartika將近城門,@Bilal Aslam

磚

Scala連接從Non-Databricks磚銅層的原始數據引發的環境