取消
顯示的結果
而不是尋找
你的意思是:

注冊數據磚辦公室HoursSeptember 28日:上午11 - 12點下午PT |格林威治標準時間下午6點- 7點磚辦公時間連接你直接與擅長……

Taha_Hussain
重視貢獻二世

注冊數據磚辦公時間

9月28日:上午11 - 12點PT |格林威治標準時間下午6點- 7點

磚的辦公時間連接你直接與專家來回答你的磚的問題。

加入我們:

•解決技術問題

•學習的最佳策略應用磚你的用例

•掌握技巧和竅門來最大化你的使用我們的平台Beplay体育安卓版本

現在注冊!

2回答2

Taha_Hussain
重視貢獻二世

這裏有一些問題和答案的9月28日辦公時間。加入我們10月12日會議,回答你的問題!

問:是否有任何好處將數據通過dataframes pyspark vs使用磚SQL ?

Performance-wsie他們會匹配但可用性明智的SQL將是更好的選擇由於其廣泛的可用性和可讀性

問:我有一個pyspark流databrick編寫的腳本,該腳本不斷死亡。我有一個預感,集群上運行。在磚運行流的正確方法是什麼?適當的監控流火花是什麼?

答:好問題。1)我將檢查與管理,看看你是否有能力連接到集群。2)如果你能附著在集群中,檢查

集群的配置。它可能是集群的案例很少的內存。所以通常流火花流通常工作更好的如果你有更多的性能,更memory-optimized機器3)如果這些事情都這樣,檢查自動終止時間。可能是

查詢沒有得到連接,導致你的筆記本沒有得到附加到集群,因此它是終止。4)我也推薦使用自動裝卸機或δ生活表而不是更好的方法來處理和監控裸奔。

dbfs問:我可以訪問數據,但不能在UI中看到它。為什麼?

這可能是由於缺乏從工作區管理對象特權。請查看這個文檔有關對象特權的更多信息。

問:有沒有一種方法創建一個模板的筆記本,這樣當開始創建一個筆記本,我們可以使用它,這可能包含一個筆記本的結構像secion:讀取、轉換、寫和其他必要的文檔。更好的如果磚可以建議創建一個筆記本從現有模板(模板定製筆記本)。

答:我們目前沒有一個特性來創建模板的筆記本,但你可以用筆記本在HTML格式寫你對你有什麼用法細胞細胞和分化。這醫生應該幫助。你也可以看看我們筆記本畫廊。這是一個偉大的想法告訴我dea門戶。

問:我們已經有一個常規問題與生產工作流程。在一些運行時,我們遇到錯誤造成的:org.apache.spark。火花Exception: Job aborted due to stage failure: Task 54 in stage 127.1 failed 4 times, most recent failure: Lost task 54.3 in stage 127.1 (TID 7380) (10.149.195.104 executor 8): ExecutorLostFailure (executor 8 exited caused by one of the running tasks) Reason: worker lost. When retrying the workflow it always succeeds. Do you know of a permanent fix for this issue? Additionally, the job is running on i3.4xlarge. Would z1d work better in this case?

你需要檢查集群的用法。也許試著ganglia矩陣和監控日誌。你看到任何GC失敗?你可能需要把更多的日誌如果移動到內存消耗集群不相同的幫助。這可能是由於它試圖從集群中使用更多內存,所以你應該考慮試圖增加消耗內存的實例類型。至於工作是如何運行的,z1d應該工作,盡管這取決於您正在運行的工作。監測ganglia將更加深入地了解如何集群和(執行者)水平的表現。

問:建議選擇自動加載程序:用例是客戶的地方很多數據原始區在一個目錄中的文件,這些文件被覆蓋一天一次……許多數據集在這個目錄....我認為我應該創建許多汽車裝載機的工作具體到每個數據集(文件)。如何自動加載程序看看目錄,選擇文件…困惑的一點是,新文件時自動加載程序會通知土地但有不同的數據集降落……所以我如何得到正確的自動加載程序過程火? ?

如果我理解正確的話,你的用例是問一個文件名模式匹配,這是目前不支持,每個數據集都將在一個單獨的文件夾。你可以找到選項,幫助你正在努力實現的,在這裏

問:一個關於火花。矢量化引發本機函數(通過pySpark),總是比UDF使用Scala更快?

不幸的是沒有一個答案,可以適合在這種情況下。因為你可能知道分區和數據密鑰分發……一般來說是的矢量化閱讀有望超越但這可以影響其他情形。

問:當使用azure私人鏈接,為什麼建議使用不同的聯接前端私人端點?如果我們使用一個不同的vnet前端私人端點,vnet應該共享所有地區的工作區嗎?或者你建議2 vnet /工作區使用私有鏈接嗎?

它應用於每毫克。這是由於後端需要集群安全連接。你可以找到更多的額外細節在這裏與體係結構

Taha_Hussain
重視貢獻二世

續……

問:生成的列在三角洲住表包括標識列?

答:我的理解是,生成的列在三角洲住表不包含標識列。這是更多的生成的列DLT。

問:我們為每個客戶原始數據存儲在一個單獨的文件夾在S3。即使它有一些優點,處理數據讀取數據文件夾,文件夾是花費大量的時間。建議以這種方式存儲數據,還是你建議一個更好的方法嗎?(也許有一個鑲花文件並添加新數據?或……?)

答:在這種情況下,我認為你是正確的。所以當你試圖分析數據,查詢數據,這種方法可以加快的結果。你可以和當前的格式或將其存儲在格式因為δ更優化,它使您能夠回到時間和時間旅行。它還有許多其他功能如z順序優化。

問:我是一個承包商將對客戶使用磚。beplay体育app下载地址我該如何考慮用戶和數據管理,這樣我就可以順利移交項目一旦完成客戶端嗎?

你應該使用統一目錄允許您管理所有你的數據和你的數據資產像筆記本機器學習模型。此外,您可以使用三角洲分享,工作與統一目錄和讓你分享模型構件,筆記本,表或強調與客戶文件——磚和non-Databricks。beplay体育app下载地址

問:客戶想使用磚和突觸聯係在一起。任何建議嗎?synapse可以閱讀三角洲表生成的磚嗎?

答:您可以使用磚和突觸聯係在一起。但是我不明白為什麼你會使用突觸以及磚。除非有一個非常具體的要求,因為一切突觸磚可以做和越來越便宜的成本。如果你熱衷於這樣做不過,隨時閱讀醫生額外的細節。

問:你有推薦教程構建一個基於圖像的圖像分類器S3(包括可能轉移學習或使用現有的模型)?什麼磚對於這個應用程序的主要好處嗎?我一直看著SageMaker選項,看起來很簡單,我不確定有多深挖磚作為替代。

好問題!我們有許多不同類型的庫,您可以部署構建圖像分類器。所以,當你創建一個集群,就選擇集群的ml運行時間,選擇最新的長期支持運行時,這些庫也有很多。您還可以自定義腳本安裝在集群上如果你想使用的腳本

問:你有什麼信息的使用三角洲住表嗎?例如,成功的故事。這將是對我們有用的決定是否使用三角洲生活表。

我們有很多客戶使用三角洲生活表。beplay体育app下载地址我的客戶基本上beplay体育app下载地址是創建管道使用三角洲生活例如表和我們有我們的一個最大的客戶是誰使用三角洲住表簡化創建管道。這給你數據質量的期望以及使數據工程數據工程師非常簡單,甚至可以為你的數據和分析的人。這也使得流媒體和批處理非常容易。

問:什麼是解決過程一個json文件像100 GB的文件和複雜的數組?

磚是良好的裝備來處理大文件。我建議你使用一個較大的集群i3.4xlarge。此外,一旦你得到這個數據存儲您應該使用命令像真空優化分配數據和真空除去舊的和未使用的文件。

問:我有點困惑的使用“pathGlobFilter”自動加載程序,你能解釋一下這個過濾器是用來做什麼的?

這些過濾器基本上幫你過濾數據。如果所有的原始文件是一個目錄,你可以選擇為每個如何負載工作某些文件。如果沒有正確地指定過濾器,那麼它將不會接這個模式。基本上這意味著你的數據,你不希望有時可能會流入嗯到三角洲湖以及它將導致更少的性能。這是一個社區的帖子更多的細節。

問:如何把當你從另一個分支在不同的分支,?例如,如果我在一個部門工作,和主分支包含變化之前,我的部門,我想把他們分支,如何變基我的分支與主分支在磚嗎?

答:例如你的同事正在行號10到15但你正在行號20到25。一旦他們把你推他們的變化會合並到主分支,然後出現了,你將審查和批準這些變化。

例如說,但如果你想要,你的同事已經在代碼和行號10到15你想要這些變化反映在你的代碼。你將不得不等待這些變化先批準合並到主分支,然後開始工作。

問:我如何使用增量表一起S3冰川(老日期記錄)?

答:保留一些舊記錄供您參考,所有表,那麼我建議你可以將這個數據推入S3冰川。已經說過的檢索時間仍將Sls AWS建議。所以如果你需要查詢這些數據由於任何原因然後你可能需要等待

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map