取消
顯示的結果
而不是尋找
你的意思是:

在一個磚筆記本讀protobuf文件

霏歐納
新的貢獻者二世

我有原型文件(離線數據存儲),我想讀一個磚筆記本。我發現這個文檔(https://docs.m.eheci.com/structured-streaming/protocol-buffers.html),但它隻涵蓋了如何閱讀protobuf數據一旦二進製DataFrame已經。我怎麼在首先讀取二進製數據嗎?

2回答2

Priyanka_Biswas
新的貢獻者三世
新的貢獻者三世

@Fiona
使用Protobuf描述符文件,您可以引用文件,可用於計算集群。這裏是這樣做的步驟:

1。進口所需的功能:

從pyspark.sql.protobuf。函數導入to_protobuf from_protobuf

2。指定的路徑描述符文件:

descriptor_file = " /路徑/ / proto_descriptor.desc "

3所示。使用from_protobuf()將一個二進製列結構:

proto_events_df = input_df.select (from_protobuf (input_df。價值,“BasicMessage”, descFilePath = descriptor_file) .alias(“原型”))

4所示。使用to_protobuf()將一個結構體列二元:

proto_binary_df = proto_events_df.select (to_protobuf (proto_events_df。原型,“BasicMessage”, descriptor_file) .alias(“字節”))

來源:
- - - - - -https://docs.m.eheci.com/structured-streaming/protocol-buffers.html

霏歐納
新的貢獻者二世

這就跟你問聲好!是的,我認為我明白了一切,但我不知道如何創建“input_df”一個文件的多個protobuf記錄,如果這是有意義的

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map