UnknownHostException在集群啟動

排除一個UnknownHostException集群啟動。這通常是一個DNS配置問題。

寫的arnab.saha

去年發表在:2022年12月8日

問題

當你啟動一個Azure磚集群,你得到一個UnknownHostException錯誤。

你也可以得到以下錯誤消息:

  • 錯誤:在網絡配置有一個錯誤。databricks_error_message:無法訪問工人工件。
  • 在名稱解析錯誤:臨時失敗。
  • 內部錯誤消息:未能啟動火花容器實例XXX。例外:不添加對XXX的集裝箱地址X.X.X.X.mysql.database.azure.com臨時故障名稱解析。

導致

這些錯誤表明DNS設置的問題。

  • 主DNS可能是因為或反應遲鈍。
  • 工件不解決,導致集群啟動失敗。
  • 你可能有一個主機記錄清單工件的公共IP是靜態的,但是它已經改變了。

解決方案

及早識別一個工作DNS服務器集群和更新DNS條目。

  1. 開始一個獨立的Azure VM和驗證工件blob存儲賬戶可及的實例。
    “遠程登錄dbartifactsprodeastus.blob.core.windows.net 443年”。
  2. 驗證您可以達到你的筆記本的主DNS服務器命令。
  3. 如果你的DNS服務器沒有響應,試圖達成你的輔助DNS服務器運行一個筆記本命令。
  4. 啟動一個網絡終端從集群的工作區。
  5. 編輯/etc/resolv.conf文件在集群上。
  6. 更新命名服務器與你的工作價值DNS服務器。
  7. 將更改保存到該文件。
  8. 重新啟動systemd-resolved
    $ sudo systemctl systemd-resolved.service重啟
刪除

信息

這是一個臨時更改DNS和將失去在集群啟動。驗證後定製的DNS設置是正確的,你可以配置自定義使用dnsmasq DNS設置做永久的改變。

進一步的故障排除

如果你仍然有DNS問題,你應該嚐試以下步驟:

  • 確認端口43(用於域名查詢服務)和端口53(用於DNS)是開放在你的防火牆。
  • 添加Azure遞歸解析器(168年,.63.129.16)默認DNS轉發器。檢查vm和角色實例文檔的更多信息。
  • 驗證網路資訊查詢結果是相同的與你的筆記本電腦默認的DNS。如果有mistmatch,您的DNS服務器可能有一個錯誤的主機記錄。
  • 確保所有事情都與一個默認的Azure DNS服務器。如果使用Azure DNS,但與定製DNS失敗,您的DNS管理員應該回顧你的DNS服務器設置。


這篇文章有用嗎?