再保險:從S3 bucket構造Dataframe或抽樣……-磚- 26723

Ovi · ‎10-18-2022

嗨!

我有一個S3 bucket與δ拚花具有不同模式的文件/文件夾。我需要創建一個抽樣或從所有這些DataFrame三角洲表應該包含的路徑,名稱和不同的模式。

我怎麼能這樣做呢?

謝謝你！

PS:我需要這個能夠比較他們與Avroschema三角洲模式相同的表從另一個S3 bucket(至少或類似)。

Debayan · ‎10-19-2022

嗨@Ovidiu Eremia DataFrameReader選項允許您創建一個從三角洲DataFrame表,固定到一個特定版本的表,例如在Python中:

df1 = spark.read.format(“δ”)。選項(' timestampAsOf ', ' 2019-01-01 ') .table (“people_10m”)顯示(df1)

請讓我們知道這有幫助。

Kaniz · ‎10-19-2022

嗨@Ovidiu Eremia,我們一直沒有收到你自從上次反應@Debayan穆克吉,我檢查看看你有一項決議。

如果你有任何解決方案,請與社區分享,因為它可以幫助別人。否則,我們將與更多的細節和試圖幫助回應。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

Ovi · ‎10-19-2022

謝謝@Debayan慕克吉但我認為我是誤解了。讓我給你更多的細節:

謝謝你！

Ovi

匿名 · ‎11-27-2022

嗨@Ovidiu Eremia

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳嗎?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

磚