你好,
我們正在開發一個新的Scala / Java程序需要讀取和處理原始數據存儲在源ADLS並行(這是一個磚環境)的體積源數據非常高(GBs & TBs)。什麼樣的連接需要讀取大量數據以並行方式在這種情況下嗎?JDBC似乎不正確的選擇,因為它不能運行多個線程。同時,三角洲共享已經試過但不工作。你能提供一些指針Scala / Java代碼庫,設計和連通性選項對於這個要求嗎?
注意:這不是一個ETL過程。數據讀取原始數據將通過管理經曆和鈾濃縮的計劃並送往下遊消費申請。我們隻有Gemfire火花集群。
任何指針將會是一個很大的幫助。謝謝提前
謝謝你!
Badal熊貓