瀏覽
磚
幫助
登錄
開始使用磚
開始討論
開始資源
磚平台Beplay体育安卓版本
技術博客
磚平台的討論Beplay体育安卓版本
工程數據
機器學習
倉庫&分析
數據治理
管理和架構
學習
學習討論
培訓產品
認證
學習路徑
認證
組
地區和利益集團
美洲
亞太地區
利益集團
事件
社區灣
社區討論
社區新聞&成員認可
譚恩
貢獻者
自
08-27-2021
06-26-2023
用戶數據
7
的帖子
0
解決方案
1
榮譽給
11
榮譽收到
磚
對譚恩
用戶活動
的帖子
回複
有人覺得單元測試數據集是緩慢的嗎?(抽樣)慢得多。這是Scala中的。
10-25-2022
我形象似乎緩慢來自星火計劃,尤其是對於一個更複雜的工作(例如100 +連接)。有辦法加速(如通過禁用某些優化)?
使用.repartition(100000)使單元測試是非常緩慢(> 20分鍾)。有一種速度呢?
06-25-2022
代碼:val結果=火花.createDataset(列表(“測試”)).rdd .repartition (100000) . map{_ = >“測試”}.collect () .toList println(結果)我編寫測試來測試正確性,所以我wonde……
轉換從隨機數字撥號改為數據集,和單元測試需要3 x慢。(但刺激更快)
02-06-2022
我來回轉換數據工作抽樣數據集,我發現,在刺激,數據工作運行更快,這很好。但單元測試運行3 x比以前慢。我最好的猜測是,數據集花時間做很多東西喜歡編碼,優化,查詢…
再保險:有人覺得單元測試數據集是緩慢的嗎?(抽樣)慢得多。這是Scala中的。
11-30-2022
這是Scala中的一個單元測試/火花不是筆記本。它在我們的回購。
再保險:使用.repartition(100000)使單元測試是非常緩慢(> 20分鍾)。有一種速度呢?
08-10-2022
謝謝你的解釋。它是深刻的。我想這是更像是一個特性要求。現在我們不能使用重新分區(10000)在一個單元測試,因為它使測試運行慢很多。切換到數據集智慧也有同樣的問題…
再保險:使用.repartition(100000)使單元測試是非常緩慢(> 20分鍾)。有一種速度呢?
06-27-2022
我們需要切換到數據集,但數據集也有緩慢的單元測試的問題。當我們把抽樣數據集,測試需要3-5x更長。我們試圖調查,我們認為數據規劃工作是緩慢的,因為我們的數據包含超過100 j……
再保險:使用.repartition(100000)使單元測試是非常緩慢(> 20分鍾)。有一種速度呢?
06-27-2022
我們絕對可以。但我們想知道如果有一個更好的方法,因為添加一個參數垃圾代碼。
榮譽從
用戶
數
Vivek_12
1
匿名
1
Kaniz
3
wojoey
1
piupiupiu
3
查看所有
榮譽給
用戶
數
譚恩
1
查看所有
map