我正在尋找一個簡單的方法有結構化流管道將自動注冊一個模式Azure df坳轉化模式注冊當avro能夠反序列化一個avro坳基於模式注冊url。
例如當我使用Scala和融合性的模式注冊表,有一個大圖書館從Absa結構化流集成https://github.com/AbsaOSS/ABRiS
我在理想情況下尋找類似的Azure,可以在Python中使用Azure的模式注冊表。
如發現這磚指南https://docs.m.eheci.com/structured-streaming/avro-dataframe.html語言python看起來很接近但隻提到彙合的模式集成注冊中心,不是如何使用和驗證一個Azure。
semirelated注意——我有問題導入正確to_avro Azure磚/ from_avro方法——試圖將schemaRegistryUrl傳遞給他們加薪
TypeError: to_avro()需要從1到2位置參數但3
這些似乎是香草火花avro方法,不是磚的?
我的環境是Azure磚- DBR 11.3 LTS
通過進口
從pyspark.sql.avro。函數導入from_avro to_avro
他們在一些不同的路徑/陰影罐子?
謝謝!
@Tomas Sedlon:
聽起來你正在尋找一種方法來集成Azure模式注冊表與你的麵向結構化流管道磚,你發現了一些資源接近你需要的但沒有。
關於from_avro()和to_avro()方法,有可能你導入的方法不是Databricks-specific那些支持Azure模式注冊中心集成。驗證的一種方法是檢查這些方法的文檔,看看他們提到Azure模式注冊作為一個特性的支持。如果不是,您可能需要使用一組不同的方法針對Azure模式注冊表。
至於整合Azure模式注冊表與你的管道,我建議查看Azure磚文檔結合Azure事件中心,其中包括部分結合Azure模式注冊表:https://docs.m.eheci.com/spark/latest/structured-streaming/streaming-event-hubs.html schema-regis……
這應該給你一個想法如何設置你磚的集成環境和如何使用它在你的管道。此外,您可能會考慮任何特定於python庫或api,可以幫助您使用Azure模式注冊表,可能會有一些可以簡化的過程。
希望這個建議能幫助你!