取消
顯示的結果
而不是尋找
你的意思是:

馬克斯為三角洲表列

User16783853906
因素二世

有一個上限/推薦馬克斯毫無價值。為三角洲表的列?

  • δ
1接受解決方案

接受的解決方案

User16783853906
因素二世

最初的回答,@Gray Gwizdz

這是一個有趣的問題,試圖找到答案!謝謝你:slightly_smiling_face:

我回顧了最近的一些問題/缺陷報告與三角洲湖和能夠找到一個類似的問題,用戶遇到性能問題與1000列(https://github.com/delta-io/delta/issues/479)但是有一個等待拉請求他們測試了4000列,看到更好的性能(https://github.com/delta-io/delta/pull/584)。

我還回顧了內部,看到另一種方法,我建議在這裏。這個人正在經曆慢寫性能當試圖使用一個非常寬表。架構師定義成千上萬的列,而是用一個ArrayType列包含大部分的功能而不是寫性能顯著提高。他們定義一個中間狀態與特征字段列表的元組(鍵值)和最終輸出特性存儲的地圖(關鍵,aggregated_value)。

也許值得一提,三角洲湖跟蹤統計數據表的前32列默認情況下,所以查詢計劃以外的任何額外的行第一個32可能不會像前32列快速。https://docs.m.eheci.com/delta/optimizations/file-mgmt.html data-skipping

在原帖子查看解決方案

2回答2

User16826994223
尊敬的貢獻者三世

沒有限製沒有列,但一個記錄不應超過20 MB

User16783853906
因素二世

最初的回答,@Gray Gwizdz

這是一個有趣的問題,試圖找到答案!謝謝你:slightly_smiling_face:

我回顧了最近的一些問題/缺陷報告與三角洲湖和能夠找到一個類似的問題,用戶遇到性能問題與1000列(https://github.com/delta-io/delta/issues/479)但是有一個等待拉請求他們測試了4000列,看到更好的性能(https://github.com/delta-io/delta/pull/584)。

我還回顧了內部,看到另一種方法,我建議在這裏。這個人正在經曆慢寫性能當試圖使用一個非常寬表。架構師定義成千上萬的列,而是用一個ArrayType列包含大部分的功能而不是寫性能顯著提高。他們定義一個中間狀態與特征字段列表的元組(鍵值)和最終輸出特性存儲的地圖(關鍵,aggregated_value)。

也許值得一提,三角洲湖跟蹤統計數據表的前32列默認情況下,所以查詢計劃以外的任何額外的行第一個32可能不會像前32列快速。https://docs.m.eheci.com/delta/optimizations/file-mgmt.html data-skipping

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map