@ppatel:
如果您使用的是與覆蓋= True insertInto PySpark蜂巢外部表,它可能不會像預期的那樣工作。這是因為外部表上的蜂巢由蜂巢和表數據存儲在外部。當你使用覆蓋= True,它試圖覆蓋表數據,這是不可能的蜂巢外的數據存儲。相反,你可以試著用insertInto覆蓋= False。這將數據附加到現有的外部表中的數據。如果你想完全取代外部表中的數據,你可以試著刪除數據從外部位置,然後使用
insertInto加載新數據覆蓋= False。
或者,您可以創建一個管理表與覆蓋= True蜂巢和使用insertInto覆蓋表中的數據。然而,這將在HDFS中創建一個新目錄,將數據複製到該目錄,這可能不是理想的如果您有大量的數據。