命令了嗎?-磚- 29574

DejanSunderic · ‎08-04-2016

我創建了一些ETL在python中使用DataFrames。它用於運行180秒。但它不是~ 1200秒。我一直在改變,所以它可能是我介紹的東西,或者環境中。

過程的一部分是S3附加結果到一個文件中。

我一看Apache的工作,我不能看到任何他們是活躍的。

當我在寫這篇文章,我得到了:org.apache.spark。SparkException:工作中止。

命令了1274.63秒,(電子郵件保護)

下午在8/4/2016 12:44:17 def4 (150 GB)

我有附加的輸出:

command-output.txt

我認為我應該能夠看到火花UI中活躍。我很驚訝,活動任務執行人是0。我應該看一些其他的嗎?

我試著重新啟動集群,但是同樣的之前和之後。我使用相同的火花1.6.2版本(Hadoop 2)。

DejanSunderic · ‎08-04-2016

當我等待一些反應(我吃午飯,然後我決定做別的筆記本,我克隆它……

我有一些初始化代碼的筆記本。它在60秒前後克隆1.4秒。哇!

你(磚支持)在集群上做些什麼?

我要運行我的etl命令。

這是運行非常快,然後又被“困”。我也看不出任何火花工作運行。

DejanSunderic · ‎08-04-2016

同時我有個想法,看著司機日誌。我發現這個:

2016 - 08 -04 t19:19:57.980 + 0000: [GC(分配失敗)[PSYoungGen: 6827008 k - > 52511 k (7299584 k)] 7660819 k - > 7660819 k (22848000 k), 0.0142959秒][:用戶= 0.08 sys = 0.01,真實= 0.01秒)

…

04 t19:27:03.294 + 0000: [GC(分配失敗)[PSYoungGen: 7270001 k - > 134234 k (7454208 k)] 8103861 k - > 8103861 k (23002624 k), 0.0509207秒][:用戶= 0.33 sys = 0.00,真實= 0.05秒)

DejanSunderic · ‎08-04-2016

過程最終完成後3600秒(3 x慢了那麼長時間,我抱怨)。

DejanSunderic · ‎08-05-2016

今天在某種程度上我又創造了新的集群。

突然一切都快得多。這是回到270 - 330秒。

我的問題依然存在我怎麼知道什麼是服務器/為什麼慢/卡幹什麼嗎?

順便說一句,需要多長時間到中度問題嗎?