取消
顯示的結果
而不是尋找
你的意思是:

與三角洲從S3 bucket構造Dataframe或抽樣表

Ovi
新的貢獻者三世

嗨!

我有一個S3 bucket與δ拚花具有不同模式的文件/文件夾。我需要創建一個抽樣或從所有這些DataFrame三角洲表應該包含的路徑,名稱和不同的模式。

我怎麼能這樣做呢?

謝謝你!

PS:我需要這個能夠比較他們與Avroschema三角洲模式相同的表從另一個S3 bucket(至少或類似)。

5回複5

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨@Ovidiu Eremia DataFrameReader選項允許您創建一個從三角洲DataFrame表,固定到一個特定版本的表,例如在Python中:

df1 = spark.read.format(“δ”)。選項(' timestampAsOf ', ' 2019-01-01 ') .table (“people_10m”)顯示(df1)

請參考:https://docs.m.eheci.com/delta/quick-start.html query-an-earlier-version-of-the-table-time-travel

請讓我們知道這有幫助。

Kaniz
社區經理
社區經理

嗨@Ovidiu Eremia,我們一直沒有收到你自從上次反應@Debayan穆克吉,我檢查看看你有一項決議。

如果你有任何解決方案,請與社區分享,因為它可以幫助別人。否則,我們將與更多的細節和試圖幫助回應。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

Ovi
新的貢獻者三世

謝謝@Debayan慕克吉但我認為我是誤解了。讓我給你更多的細節:

  • 我需要比較不同模式幾個三角洲表每個模擬avro模式
  • 我設法建立一個dataframe avro模式利用火花wholeTextFiles抽樣和我想做類似模式的δ鑲花的文件
  • 因為這些三角洲表有不同的模式我不能用火花標準方法,我想我需要做一個循環在Scala中通過所有這些文件夾,鑲花的文件分別和加載它們。
  • 但是我想知道是否有另一種方法類似於wholeTextFiles冷杉文本文件。

謝謝你!

Ovi

匿名
不適用

嗨@Ovidiu Eremia

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳嗎?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map