取消
顯示的結果
而不是尋找
你的意思是:

Scala連接從Non-Databricks磚銅層的原始數據引發的環境

BkP
貢獻者

你好,

要求

我們正在開發一個新的Scala / Java程序需要讀取和處理原始數據存儲在源ADLS並行(這是一個磚環境)的體積源數據非常高(GBs & TBs)。什麼樣的連接需要讀取大量數據以並行方式在這種情況下嗎?JDBC似乎不正確的選擇,因為它不能運行多個線程。同時,三角洲共享已經試過但不工作。你能提供一些指針Scala / Java代碼庫,設計和連通性選項對於這個要求嗎?

注意:這不是一個ETL過程。數據讀取原始數據將通過管理經曆和鈾濃縮的計劃並送往下遊消費申請。我們隻有Gemfire火花集群。

任何指針將會是一個很大的幫助。謝謝提前

謝謝你!

Badal熊貓

3回複3

BkP
貢獻者

更多信息:

源數據ADLS從SAP和智能手機等erp。數據格式是拚花和全負荷數據和增量加載數據是可用的。

Kaniz
社區經理
社區經理

嗨@Badal熊貓,我們可以讀文件通過火花DataFrameReader API並將結果寫入三角洲湖。

注意我們使用% scala語言神奇的命令,讓我們運行細胞使用scala。

% scala #定義路徑val rawpath =“路徑”val bronzepath =“路徑”
#讀取文件val文件= spark.read.parquet (rawpath)

BkP
貢獻者

你好專家。建議在這個問題上嗎? ?標簽有些人我從他之前得到答案。請幫助這個需求或標記可以幫助這個人

@Kaniz Fatma, @Vartika將近城門,@Bilal Aslam

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map