再保險:databricks-connect 13.1.0限製-磚- 37096

蒂博 · ‎07-06-2023

你好,

很興奮看到databricks-connect的新版本,我開始編寫單元測試運行pyspark使用databricks-connect磚集群。

一些成功的基本單元測試後,我測試更多的鏈接轉換dataframe包括一些填充,簡單的算術,線性回歸斜率計算通過熊貓udf。沒有什麼幻想。然後在運行測試時,我得到了以下錯誤:

E pyspark.errors.exceptions.connect。SparkConnectGrpcException: < _MultiThreadedRendezvous終止的RPC: E = StatusCode地位。未知E細節= " " E debug_error_string = "無名:錯誤收到對等{grpc_message:“grpc_status: 2, created_time:“2023 - 07 - 06 - t13:29:00.033340701 + 00:00”}”

我沒有得到這個錯誤當我刪除一個簡單的列(一個恒定的文字),我沒有得到這個錯誤不是如果我直接在磚上運行相同的代碼。

錯誤似乎指向grpc databricks-connect限製。有人遇到這個,有一個地方我們可以檢查當前databricks-connect的局限性是什麼?

蒂博 · ‎07-06-2023

通常隻是寫一個問題幫助解決它。databricks-connect任何人麵對問題,不要直接使用磚出現,這裏有限製(rtfm我):

https://learn.microsoft.com/en-us/azure/databricks/dev-tools/databricks-connect的局限性

特別是關注dataframe的大小。databricks-connect不支持dataframes大於128 MB,這並不是太多。希望下一個版本將允許更大的dataframes。

希望這可以幫助!

蒂博 · ‎07-06-2023

我的壞,我認為這是問題,但最終我的行數減少,成為規模小於1 MB,與同樣的錯誤和它仍然失敗,所以我仍然不知道為什麼與databricks-connect這個操作失敗,我有檢查,所有使用火花引發連接功能支持。

如果任何人有任何想法,謝謝你的分享。

jrand · 一個星期前

添加更多的我甚至不這128 mb的限製是一個限製。你可以設置”火花。連接。grpc。maxInboundMessageSize”更大的值,並覆蓋默認限製客戶端通過使用一個自定義gRPC ChannelBuilder。

磚

databricks-connect 13.1.0局限性