取消
顯示的結果
而不是尋找
你的意思是:

兩個三角洲湖的問題

jayallenmn
新的貢獻者三世

嘿,夥計們,

我們正在考慮三角洲湖作為我們的項目的存儲,有幾個問題。第一個是定價的三角洲湖——似乎無法找到一個頁麵說x數量成本y。

第二個問題是更多的技術——如果我們想使用python庫訪問我們的三角洲湖數據而不是火花,我們要把熊貓dataframe三角洲湖?這個博客似乎這麼說//m.eheci.com/blog/2020/12/22/natively-query-your-delta-lake-with-scala-java-and-python.htm..。。我們關心的是三角洲湖將許多gb的數據,它不適合在一個熊貓dataframe。

周傑倫

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

三角洲湖本身是免費的。這是一個文件格式。但是你必須支付當然存儲和計算。

如果你想使用磚三角洲湖,它不會是免費的,除非你使用community edition。

取決於你打算做什麼,可以很低的成本非常高。

您可以使用三角洲湖沒有磚順便說一句。

關於你提到的第二個問題:熊貓的確是一種選擇。和你的關心就是為什麼分布式數據處理引發了這樣的框架。

如果你想要避免使用火花,你可能想看看Dask或射線。

在原帖子查看解決方案

4回複4

werners1
尊敬的貢獻者三世

三角洲湖本身是免費的。這是一個文件格式。但是你必須支付當然存儲和計算。

如果你想使用磚三角洲湖,它不會是免費的,除非你使用community edition。

取決於你打算做什麼,可以很低的成本非常高。

您可以使用三角洲湖沒有磚順便說一句。

關於你提到的第二個問題:熊貓的確是一種選擇。和你的關心就是為什麼分布式數據處理引發了這樣的框架。

如果你想要避免使用火花,你可能想看看Dask或射線。

jayallenmn
新的貢獻者三世

由於@Werner Stinckens——你會推薦處理三角洲湖數據磚/火花嗎?

werners1
尊敬的貢獻者三世

完全!

嗨@Jay艾倫,

隻是一個友好的後續。做任何反應幫助你解決你的問題嗎?如果是,請其標記為最好。否則,請讓我們知道如果你還需要幫助。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map