我創建了一些ETL在python中使用DataFrames。它用於運行180秒。但它不是~ 1200秒。我一直在改變,所以它可能是我介紹的東西,或者環境中。
過程的一部分是S3附加結果到一個文件中。
我一看Apache的工作,我不能看到任何他們是活躍的。
當我在寫這篇文章,我得到了:org.apache.spark。SparkException:工作中止。
命令了1274.63秒,(電子郵件保護)
下午在8/4/2016 12:44:17 def4 (150 GB)
我有附加的輸出:
我認為我應該能夠看到火花UI中活躍。我很驚訝,活動任務執行人是0。我應該看一些其他的嗎?
我試著重新啟動集群,但是同樣的之前和之後。我使用相同的火花1.6.2版本(Hadoop 2)。