我試圖基準Powerbi磚連接器vspowerbi三角洲湖讀者在一個數據集的215萬行。我發現三角洲湖讀者使用20秒,而進口通過SQL計算端點了~ 75秒。
當我看到在SQL查詢資料計算我看到50秒spendt“柱狀行”的一步。這讓我相當suspicios,因為我得到的印象,一個更新PowerBI我們將利用”雲獲取”,創建包含Apache箭頭批次的文件,這是一個柱狀的格式。為什麼轉換行嗎?也許實際上並沒有使用雲獲取?有什麼方法可以驗證我實際使用雲獲取?在PowerBi日誌或磚SQL計算端點web界麵?
謝謝你的提示!我冒險進入powerbi文件夾(在WindowsApps),和子文件夾“bin \ ODBC驅動程序\辛巴火花ODBC驅動程序”我發現通過運行“貓SparkODBC_sb64版本。dll |中版本”。它打印“ProductVersion2.6.18.1030”。
這* *應該支持cloudfetch,但我仍然看到奇怪的性能特征如上所述。我的問題仍然有效(@Piper Wilson),有什麼方法可以* *確認雲獲取使用?這似乎是一個人應該能夠看到一些在查詢檔案在磚的痕跡。
嗨@Gerhard Brueckl和@Erik Parmann, ODBC驅動程序版本2.6.17以上支持雲獲取能力,獲取查詢結果中通過雲存儲Azure磚部署。
使用這種格式提取查詢結果,你需要磚運行時8.3或以上。
查詢結果上傳到內部DBFS存儲位置作為arrow-serialized文件20 MB。Azure磚生成和共享訪問簽名返回給上傳文件當司機查詢完成後發送獲取請求。然後ODBC驅動程序使用的url下載直接從DBFS結果。
雲拿隻用於查詢結果比1 MB更重要。從Azure磚直接獲取更多的輕微影響。
Azure磚自動收集積累的文件標記為刪除後24小時。這些標記文件全部刪除後一個額外的24小時。
了解更多關於雲計算獲取架構,明白了我們如何實現高帶寬連接用BI工具嗎。