如何讀取二進製數據在pyspark -磚- 27417

tourist_on_road · ‎12-12-2019

我讀二進製文件http://snap.stanford.edu/data/amazon/productGraph/image_features/image_features.b使用pyspark。

從io importStringIO進口數組

img_embedding_file = sc.binaryRecords (s3: / /桶/ image_features.b》4106) def映射器(特性):a = array.array (f) a.frombytes(特性)返回a.tolist () def byte_mapper(字節):a = array.array (b) a.frombytes(字節)byte_list = a.tolist () char_list =(255 +其他如果x < 0 x x在byte_list a.fromlist (char_list)返回a.tobytes () .decode ()

decoded_embeddings = img_embedding_file。地圖(λx: [byte_mapper (x[10]),映射器(x [10])))

該文件駐留在s3。文件的每一行的第一個10個字節

product_id

下4096個字節

image_features

我能提取4096年所有的圖像特征但麵臨問題閱讀第一個10個字節並將其轉換為適當的可讀的格式。

shyam_9 · ‎12-16-2019

嗨@tourist_on_road,請通過下麵的文檔,

https://spark.apache.org/docs/2.3.0/api/python/pyspark.html pyspark.SparkContext.binaryFiles

磚

如何讀取二進製數據在pyspark嗎