取消
顯示的結果
而不是尋找
你的意思是:

我如何查詢曆史觀、持續時間、等所有用戶

alejandrofm
價值貢獻

這就跟你問聲好!我有一些工作,保持閑置一段時間,使數據從一個S3 DBFS山,這都是SQL查詢三角洲,我怎麼能知道是瓶頸,持續時間、提示?診斷引發性能緩慢的過程,我認為是獲得數據。

並向用戶發送recomendations出版工作使用SQL不好的實踐。

謝謝!

1接受解決方案

接受的解決方案

alejandrofm
價值貢獻

我們發現regeneratig符號鏈接清單上的所有分區。出於某種原因,它被執行兩次,在工作的開始和結束。

delta_table生成(“symlink_format_manifest”)

我們配置表:

ALTER TABLE三角洲。“< path-to-delta-table >”設置TBLPROPERTIES (delta.compatibility.symlinkFormatManifest.enabled = true)

上的符號鏈接的創建和刪除工作,所有工作30分鍾的好從2 h。

謝謝!

在原帖子查看解決方案

11日回複11

AmanSehgal
尊敬的貢獻者三世

你能舉例說明你的問題嗎?目前還不清楚,到底是你麵臨的問題。

是加載文件S3和處理他們的問題或你的查詢,需要更長的時間比平常?

查看查詢曆史數據磚,去查詢曆史選項卡在您的工作空間。

alejandrofm
價值貢獻

這個問題似乎當我查詢的三角洲湖磚火花的工作,我說似乎是因為在不太複雜的過程的第一步是一個SQL查詢集群吃閑飯10 +分鍾(沒有數據,幾乎沒有CPU、ram不改變)。

S3 / AWS雲服務的引用是為了告訴你我們的工作。

當我進入查詢曆史選項卡中沒有看到任何與其他用戶相關的工作,也許我是唯一一個通過磚在這一點上執行查詢,但引發的工作是使查詢,所以我認為應該有一個日誌的,我錯了嗎?

謝謝!

AmanSehgal
尊敬的貢獻者三世

你能共享一個截圖嗎?

當你說你查詢三角洲湖從磚火花的工作,你的意思是說你使用磚工作與一個SQL運行一個筆記本嗎?

alejandrofm
價值貢獻

我有一個火花工作PySpark這樣運行查詢但複雜:

data =火花。sql (“SELECT * FROM模式。表內連接……等等ec”)

霍霍三角洲湖,做一些重過程的結果,並將其存儲在另一個表。

我叫很多東西:P,截圖的過程將是有用的嗎?謝謝

Baidu
map