查看其他用戶的一些問題在我們最後的辦公時間。所有這些問題都回答住磚專家!
問:什麼是最好的方式使用UDF類?
答:你需要定義類,然後注冊函數作為一個UDF。你可以在這裏找到更多的例子https://docs.m.eheci.com/spark/latest/spark-sql/udf-python.html
問:我們遇到困難哄騙火花分發蒙特卡羅模擬計算工作,似乎是優化器將嚐試運行任務順序直到我們spark.sql.adaptive.coalescePartitions.enabled禁用。有分配的最佳實踐MC sim / vs data-intesive計算工作任務嗎?
如果你想啟用了AQE但調優應用程序如果我們需要目標最低#洗牌分區可以使用以下設置。spark.conf.set (“spark.sql.adaptive.enabled”,真的)spark.conf.set (“spark.sql.adaptive.coalescePartitions.enabled”,真的)spark.conf.set (‘spark.sql.adaptive.coalescePartitions.initialPartitionNum’,‘1440’) spark.conf.set (“spark.sql.adaptive.coalescePartitions。minPartitionNum ', ' 1000 ') spark.conf.set (“spark.databricks.adaptive.autoOptimizeShuffle.enabled”,假)如果你不設置spark.sql.adaptive.coalescePartitions。initialPartitionNum默認情況下需要spark.sql.shuffle.partitionshttps://spark.apache.org/docs/latest/sql-performance-tuning.html性能調優上述設置的優點是洗牌分區的數量總是撒謊minPartitionNum和initialPartitionNum之間。
問:如何為筆記本和運行代碼掃描它們的依賴項中定義一個筆記本或集群?代碼掃描像黑鴨子。
你需要創建一個init腳本安裝這些庫的依賴關係時,集群被創造出來。
問:我與TAC在過去已經使用集群。我注意到的一個新客戶,我工作在新的磚UI提到高並發集群棄用。這是否意味著我們應該搬到加州大學和忘記使用HC與TAC集群
答:這是一個預期行為我們刪除的選項HC集群。他們不提供任何額外的行為,這些天不能通過標準配置集群。
問:% sql清楚緩存和sparkcontext.clearCache()一樣嗎?他們清除緩存集群中還是在筆記本狀態?
它清除dataframe /表緩存在會話中沒有jvm緩存(筆記本狀態)
問:具體統一目錄……是正確的認為蜂巢Metastore團結Metastore取代了嗎?還是互補?
那是正確的。團結就是做事情的新方法。更安全,比HMS能力
問:作為一個管理,是否有辦法檢查表訪問的人通過數據科學和環境工程師嗎?
答:如果是加州大學,你可以檢查這個細節的信息模式。沒有加州大學,我不確定,也許您可以探索審計日誌選項