取消
顯示的結果
而不是尋找
你的意思是:

QRY結果不正確但導出的數據就可以了

AndLuffman
新的因素

我跑一個查詢“Select * from fact_Orders”。這提出了大量的垃圾,正確的列標題,但是內容非常隨機的,如空格鍵列,12282384234 e-45的增值稅稅率。

當我導出到CSV,它在CSV禮物好。

當我選擇Order_id Vat_rate,他們正確地呈現。當我選擇*一行,它提出了罰款。

似乎有一種“限製”的數量列但這變化,我認為根據data_types,但列數限製似乎是2的乘方(我沒有在第四和第八列,取決於選擇的列)。

所以,在磚接口提供的數據不正確。

其他人見過這個,更重要的是,有解決嗎?

5回複5

Kaniz
社區經理
社區經理

@AndLuffman,你經曆的問題可能與磚接口的局限性在處理大型數據集有很多列。接口有一個限製它可以顯示的行數,這可能導致你看到在運行的顯示問題SELECT *查詢的一張大桌子上。

@Kaniz,感覺與某個限製但混淆,1:它工作好幾個月更多的數據(我做了限製表來體現問題500條記錄後,400000年的原始)和2:團隊裏的其他人基本相同的設置沒有遭受同樣的問題。
我們想知道是否有一些微妙的配置導致的。

@AndLuffman,

•它是具有挑戰性的查明問題的確切原因沒有更具體的細節
•設置工作好幾個月更多的數據和其他團隊成員
•不太可能,這是一個磚的一般限製


•可能的因素需要考慮:


——版本差異:檢查磚的版本,以確保其符合要求
——訪問模式:一些功能隻支持單用戶訪問模式
——特權:確保必要的特權模式和對象
- Python udf: Python udf在13.1及以下版本不支持;使用版本13.2或以上
線程池:標準Scala不支持線程池;在org.apache.spark.util.ThreadUtils使用獨特的線程池
-數據大小:基於熊貓和集群計算資源的限製,bamboolib限於大約1000萬行
•如果這些因素不解決這個問題,考慮更具體的配置或尋求幫助從磚支持通過文件支持的票。

謝謝@Kaniz幾件事情思考/研究。我不上知識淵博的磚是如何工作的,我隻是使用它。我希望這發生了別人,會有簡單的開關彈簧設置在一個地方。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map