我讀二進製文件http://snap.stanford.edu/data/amazon/productGraph/image_features/image_features.b使用pyspark。
從io importStringIO進口數組img_embedding_file = sc.binaryRecords (s3: / /桶/ image_features.b》4106) def映射器(特性):a = array.array (f) a.frombytes(特性)返回a.tolist () def byte_mapper(字節):a = array.array (b) a.frombytes(字節)byte_list = a.tolist () char_list =(255 +其他如果x < 0 x x在byte_list a.fromlist (char_list)返回a.tobytes () .decode ()
decoded_embeddings = img_embedding_file。地圖(λx: [byte_mapper (x[10]),映射器(x [10])))
該文件駐留在s3。文件的每一行的第一個10個字節
product_id
下4096個字節image_features
我能提取4096年所有的圖像特征但麵臨問題閱讀第一個10個字節並將其轉換為適當的可讀的格式。