你好,
我建立一個python包,返回1行從一次DF內部數據磚塊環境。
改善這個包我使用多處理庫的性能在python中,
我有後台進程,他的整個目的是準備的數據塊(過濾大火花df和轉換為熊貓或列表使用收集),推動他們多進程隊列的主要過程。
在我使用pypsark.sql子流程。功能模塊來過濾、指數和洗牌大火花df,轉換為大熊貓並把它發送到隊列中。
當我寫的所有對象在一個筆記本,運行所有單元測試和我對象去好每件事。
在下載一個輪子文件和包我創建了pip和從車輪跑一個函數文件,用我的包拋出錯誤,我不能理解為什麼。
從我的角度來看,由於某種原因子流程運行的環境,不知道pyspark.sql.functions。
附加錯誤我從集群stderr日誌:
希望你們知道如何克服這個錯誤。
這將幫助很多。
謝謝。
* *如果缺少任何信息請讓我知道,我會編輯問題* *