我有下列三個問題。
Q1。我需要安裝第三方庫統一目錄啟用共享集群。但是我不能夠安裝。不接受dbfs路徑dbfs: / FileStore /罐/
Q2。我有一個要求將數據裝載到salesforce從s3文件。我用簡單的salesforce庫進行讀/寫在salesforce數據磚。根據我們需要提供字典數據的文檔編寫函數。當我試圖把pyspark dataframe我得到以下錯誤。
從pyspark.sql。類型進口StructType、StructField StringType IntegerType data2 = [(“Test_Conv1”、“(電子郵件保護)”、“奧利維亞”、“一個”,“3000000000”),(“Test_Conv2”、“(電子郵件保護)”、“傑克”、“B”, 4000000000), (“Test_Conv3”、“(電子郵件保護)”,“威廉姆斯”、“C”, 5000000000), (“Test_Conv4”、“(電子郵件保護)“,”瓊斯”、“D”, 6000000000), (“Test_Conv5”、“(電子郵件保護)”、“褐色”,沒有,9000000000)]模式= StructType ([\ StructField(“姓”,StringType(),真的),\ StructField(“電子郵件”,StringType(),真的),\ StructField (“FirstName”, StringType(),真的),\ StructField (“MiddleName StringType(),真的),\ StructField(“電話”,StringType(),真的)])df = spark.createDataFrame (data = data2模式=)df_contact = df.rdd。地圖(λ行:row.asDict ()) .collect () sf.bulk.Contact.insert (df_contact batch_size = 20000, use_serial = True)
錯誤信息:
py4j.security。公共org.apache.spark.rdd Py4JSecurityException:方法。抽樣org.apache.spark.api.java.JavaRDD.rdd()類類org.apache.spark.api.java.JavaRDD不是白名單
你能幫我把dataframe字典。
第三季。即使有一種方法將dataframe字典,它可以影響大數據集的性能。有什麼辦法可以加載在Salesforce數據更優化的方法。
這不是一個許可的問題。我已經上傳在磚第三方庫,但磚集群不接受jar的路徑。