客戶端收到來自第三方的數據是每周的“datadumps”一個MySQL數據庫複製到Azure Blob存儲賬戶容器(我懷疑這是手工完成,我還懷疑之間的變化約7 gb文件非常小)。我需要自動化攝入的變化在我的主目錄。
我正在試圖讓視圖訪問源數據庫,但同時…
失敗後得到一個工作創1連接使用火花配置參數存儲帳戶使用管理身份和服務原則(AbfsRestOperatonException) (https://community.m.eheci.com/s/question/0D58Y00009pvzofSAA/unity-catalogerror-creating-table-errorclassinvalidstate-failed-to-access-cloud-storage-abfsrestoperationexception),我升級到創2,最後發現賬戶仍將密鑰身份驗證而不是AAD身份驗證)和多天後我可以訪問該文件在Azure磚WS。
所以我有代Blob存儲保存為一個外部位置通過一個訪問訪問連接器,隻讀權限,這是據我得到
' ' '
# todo:三角洲tableify這個
#有趣的事實顯然與根文件夾中的文件有問題,但嘿,這是為我工作。
文件:sDataFrame =火花。sql(“列表abfss: / / source_container@source_sa.dfs.core.windows.net”)。
#寫輸出差值表,選擇新的/修改文件
#為每個新的/修改文件:
dbutils.fs.cp (“abfss: / /(電子郵件保護)/ modified_file.sql。廣州”、“abfss: / / test@datalake_dedicated_sa.dfs.core.windows.net/raw/source_name/../modified_file.sql.gz')
dbutils.fs.cp (“test@datalake_dedicated_sa.dfs.core.windows.net/raw/source_name/../modified_file.sql.gz'”,文件:/ tmp / temp.sql.gz”)
' ' '
' ' '
% sh
# gzip - d / tmp / temp.sql.gz
ls / tmp / temp.sql
' ' '
- >確認它是一堆輸出mysql查詢
所以我原來的計劃是自旋向上一個臨時sql server使用sqlcmd:
' ' '
% sh
旋度https://packages.microsoft.com/keys/microsoft.asc| sudo apt-key添加-
旋度https://packages.microsoft.com/config/ubuntu/20.04/prod.list| sudo三通/etc/apt/sources.list.d / msprod.list
' ' '
但細胞並沒有解決。
我一直在想,應該有一種攝取從火花. sql文件,所以我去sql解析器(sqlglot的兔子洞
(scala引發本地ParserInterface) (https://stackoverflow.com/questions/52108677/how-to-extract-tables-with-data-from-sql-dumps-using-spark),一個python等價的),但這些都針對表攝入,而不是數據庫/模式攝入水平。(加上穿過另一個(有趣的bug) (https://stackoverflow.com/questions/15434709/checksum-exception-when-reading-from-or-copying-to-hdfs-in-apache-hadoop)當試圖複製回外部位置)
我現在想從mysql,但我還是擔心訪問一個臨時的服務器設置在集群上(我猜我使用“localhost”),但我找不到任何任何人這樣做的例子。
有人有一個更好的/功能解決方案嗎?我迷路了int曠野,請幫助。
(我目前的計劃是手動設置一個服務器在我當地env和訪問它從磚和複製的一個版本,所以我至少可以看看數據,並保持努力爭取一個合理的數據來源……)
@Sylvia VB:
這裏有一些建議和注意事項,幫助你瀏覽的問題:
@Sylvia VB:
這裏有一些建議和注意事項,幫助你瀏覽的問題:
這就跟你問聲好!
非常感謝這個響應,抱歉我延遲響應。
我最終紡絲專用Azure靈活MySQL serverrather比試圖設置一個集群機器上(太多的相互衝突的關係)。這工作得很好,但我不確定地認為這是最有效的解決方案。在轉儲讀書花了一個小時,然後讀表成磚了多個小時。
我做了調查處理直接轉儲火花,基於[這](https://stackoverflow.com/questions/52108677/how-to-extract-tables-with-data-from-sql-dumps-using-sp..。線程,但似乎有點不到可靠的自動化任務。
我將不得不重新審視這個因為我必須做一些改變從每個每周將捕獲/比較理想的不涉及後處理整個表,但那是我名單上往下一點
再次感謝!