你好,
很興奮看到databricks-connect的新版本,我開始編寫單元測試運行pyspark使用databricks-connect磚集群。
一些成功的基本單元測試後,我測試更多的鏈接轉換dataframe包括一些填充,簡單的算術,線性回歸斜率計算通過熊貓udf。沒有什麼幻想。然後在運行測試時,我得到了以下錯誤:
E pyspark.errors.exceptions.connect。SparkConnectGrpcException: < _MultiThreadedRendezvous終止的RPC: E = StatusCode地位。未知E細節= " " E debug_error_string = "無名:錯誤收到對等{grpc_message:“grpc_status: 2, created_time:“2023 - 07 - 06 - t13:29:00.033340701 + 00:00”}”
我沒有得到這個錯誤當我刪除一個簡單的列(一個恒定的文字),我沒有得到這個錯誤不是如果我直接在磚上運行相同的代碼。
錯誤似乎指向grpc databricks-connect限製。有人遇到這個,有一個地方我們可以檢查當前databricks-connect的局限性是什麼?
通常隻是寫一個問題幫助解決它。databricks-connect任何人麵對問題,不要直接使用磚出現,這裏有限製(rtfm我):
https://learn.microsoft.com/en-us/azure/databricks/dev-tools/databricks-connect的局限性
特別是關注dataframe的大小。databricks-connect不支持dataframes大於128 MB,這並不是太多。希望下一個版本將允許更大的dataframes。
希望這可以幫助!