取消
顯示的結果
而不是尋找
你的意思是:

如何讀取二進製數據在pyspark嗎

tourist_on_road
新的因素

我讀二進製文件http://snap.stanford.edu/data/amazon/productGraph/image_features/image_features.b使用pyspark。

從io importStringIO進口數組

img_embedding_file = sc.binaryRecords (s3: / /桶/ image_features.b》4106) def映射器(特性):a = array.array (f) a.frombytes(特性)返回a.tolist () def byte_mapper(字節):a = array.array (b) a.frombytes(字節)byte_list = a.tolist () char_list =(255 +其他如果x < 0 x x在byte_list a.fromlist (char_list)返回a.tobytes () .decode ()

decoded_embeddings = img_embedding_file。地圖(λx: [byte_mapper (x[10]),映射器(x [10])))

該文件駐留在s3。文件的每一行的第一個10個字節

product_id
下4096個字節
image_features
我能提取4096年所有的圖像特征但麵臨問題閱讀第一個10個字節並將其轉換為適當的可讀的格式。

1回複1

shyam_9
價值貢獻
價值貢獻
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map