2022年5月23日更新mathan.pillai

找到一個表的大小

本文解釋如何找到一個表的大小。取決於使用的命令,如果你試圖找到一個增量的大小表或non-delta表。三角洲大小表找到δ的大小表,您可以使用Apache引發SQL命令。% scala com.databricks.sql.transaction.tahoe進口。_ val deltaLog = deltaLog。forTable(火花,“dbf……

0分鍾的閱讀時間
2022年5月23日更新mathan.pillai

選擇文件使用模式匹配

在選擇文件,一個共同的要求是隻從一個文件夾讀取特定的文件。例如,如果您正在處理日誌,你可能想要從一個特定的月讀文件。列舉每個文件和文件夾找到所需的文件,您可以使用一個水珠模式匹配多個文件用一個表達式。本文使用進行了…

1分鍾的閱讀時間
2023年2月3日更新,mathan.pillai

真空三角洲湖上的最佳實踐

為什麼要使用真空三角洲湖嗎?真空是用來清理閑置和陳舊的數據文件占用不必要的存儲空間。刪除這些文件可以幫助降低存儲成本。當您運行真空在三角洲表刪除以下文件從底層文件係統:任何數據文件不是由三角洲湖刪除過期…

5分鍾的閱讀時間
2022年5月26日更新mathan.pillai

獲取和設置Apache火花在筆記本配置屬性

在大多數情況下,您將火花配置集群級別(AWS | Azure)。然而,可能存在這樣的情況:您需要檢查(或一組)特定的火花配置屬性的值在一個筆記本上。本文向您展示了如何顯示火花配置屬性的當前值在一個筆記本上。它還向您展示了如何設置一個新的v…

0分鍾的閱讀時間
2022年5月10日更新mathan.pillai

比較兩個版本的δ表

三角洲湖支持時間旅行,你可以查詢舊三角洲表的快照。一個常見的用例是比較兩個版本的三角洲表,以確定哪些改變。有關時間旅行的更多詳細信息,請查看三角洲湖時間旅行文檔(AWS | Azure | GCP)。識別所有的差異可以使用SQL SELEC……

0分鍾的閱讀時間
2022年11月7日,更新mathan.pillai

工作失敗ExecutorLostFailure由於“內存溢出”錯誤

問題工作失敗ExecutorLostFailure錯誤消息。ExecutorLostFailure(執行人< 1 >退出正在運行的任務之一所致)原因:遺囑執行人心跳超時後< 148564 >導致女士ExecutorLostFailure錯誤信息意味著執行人之一Apache火花集群已經丟失。這是一個通用的錯誤消息…

2分鍾的閱讀時間
更新5月16日,2022年由mathan.pillai

Conda未能從蟒蛇下載包

問題要從蟒蛇下載包存儲庫和PackagesNotFoundError錯誤消息。這個錯誤可能發生在使用% conda,或% sh conda筆記本,當使用conda init腳本。導致蟒蛇inc .)更新為repo.anaconda.com和anaconda.org/anaconda服務條款。基於水蟒……

0分鍾的閱讀時間
2022年5月23日更新mathan.pillai

當啟用AQE斷斷續續的NullPointerException

問題得到一個間歇NullPointerException錯誤當保存您的數據。Py4JJavaError:調用o2892.save時發生一個錯誤。:. lang。在org.apache.spark.sql.execution.adaptive.OptimizeSkewedJoin NullPointerException。anonfun getMapSizesForReduceId美元1美元(OptimizeSkewedJoin.scala: 167) org.apache.spark.sql.execution.adaptive ....

0分鍾的閱讀時間
2022年11月7日,更新mathan.pillai

工作失敗ExecutorLostFailure因為遺囑執行人是忙碌的

問題工作失敗ExecutorLostFailure錯誤消息。ExecutorLostFailure(執行人< 1 >退出正在運行的任務之一所致)原因:遺囑執行人心跳超時後< 148564 >導致女士ExecutorLostFailure錯誤信息意味著執行人之一Apache火花集群已經丟失。這是一個通用的錯誤消息…

1分鍾的閱讀時間
2022年5月19日更新mathan.pillai

readStream()不是白名單查詢運行時錯誤

問題表訪問控製(AWS | Azure | GCP)上啟用您的集群。你試圖運行一個結構化流查詢和獲取和錯誤消息。py4j.security。公共org.apache.spark.sql.streaming Py4JSecurityException:方法。DataStreamReader org.apache.spark.sql.SQLContext.readStream()不是白名單類類org.apache.s……

0分鍾的閱讀時間
2023年2月3日更新,mathan.pillai

優化隻是支持表誤差δ湖

δ表上運行優化問題和得到一個錯誤消息說它隻是支持三角洲表。錯誤:“<數據庫名稱>”。“<表名稱>”不是一個δ表。優化隻是支持三角洲表。因為這可能發生,如果目標表的存儲位置修改,表重新創建了一個新的存儲……

0分鍾的閱讀時間
2022年5月10日更新mathan.pillai

z值將是無效的,而不是收集統計數據

問題你想優化δz值表,收到一個錯誤不收集統計數據的列。AnalysisException: z值在[col1, col2]將是無效的,因為我們目前不為這些列收集統計數據。信息請查看z值(多維聚簇)(AWS | Azure GCP) |更多有限公司…

0分鍾的閱讀時間
2022年5月10日更新mathan.pillai

優化三角洲沉在一個結構化的流媒體應用程序

您使用的是δ表作為結構化的流媒體應用程序的水槽和你想優化三角洲表以便提高查詢的速度。如果您的結構化的流媒體應用程序有一個非常頻繁觸發間隔,它也不會帶來足夠的文件在每個microbatch資格獲得壓實。autoOptimize操作compac……

0分鍾的閱讀時間
加載更多