你好,我得到以下錯誤:
com.databricks.sql.io。FileReadException:當wasbs閱讀文件時發生錯誤:(電子郵件保護)/廚師/ processYear = 2021 / processMonth = 12 / processDay = 30 / processHour = 18 / - 00003 - tid - 4178615623264760328. - c000.avro一部分。引起的:com.microsoft.azure.storage。StorageException: Blob哈希不匹配(integrity check failed), Expected value is 8P7bo1mnLPoLxVw==, retrieved bu+CiCkLm/kc6QA==.
processYear, processMonth processDay和processHour分區列。
然而,這實際上隻是一個警告,仍然繼續執行的代碼(也我能讀這個文件分別在筆記本)……但是最終工作死因為:
警告在舞台上失去了任務9026.0 324.0 (TID 1525596, 10.139.64.16,執行人83):TaskKilled(取消階段)
我用下麵的磚和火花配置:
RuntimeVersion: 5.5.x-scala2.11 MasterConfiguration: NodeType: Standard_D32s_v3 NumberOfNodes: 1 WorkerConfiguration: NodeType: Standard_D32s_v3 NumberOfNodes: 2
這個工作是部署在其他環境中也更多的數據量,它不失敗。知道為什麼它可能會失敗呢?
謝謝!
你好@(電子郵件保護),
這可能是一個限製從火花提交工作。請檢查文檔https://docs.m.eheci.com/jobs.html創建作業請查找以下信息:
重要的
有幾個局限性.... spark-submit任務
是的,我能讀筆記本DBR 6.4,當我指定這條路徑:
wasbs:(電子郵件保護)/廚師/ processYear = 2021 / processMonth = 12 / processDay = 30 / processHour = 18
但同樣的使用從spark-submit DBR 6.4,再次失敗。每次抱怨不同的部分文件在不同分區。
我們也有相同的代碼,使用相同的火花配置部署在不同的地區,但這隻是我們有一個問題。這可能是相關的數據,如部分文件大小限製為給定的火花的版本嗎?
你好@(電子郵件保護),
這可能是一個限製從火花提交工作。請檢查文檔https://docs.m.eheci.com/jobs.html創建作業請查找以下信息:
重要的
有幾個局限性.... spark-submit任務