解決:PySpark Jupyterhub k8 | |不能查詢數據……-磚- 17871

vivek_sinha · ‎06-10-2022

Pyspark版本:

2.4.5

蜂巢版本:1.2

Hadoop版本:2.7

aws sdk Jar: 1.7.4

Hadoop-AWS: 2.7.3

當我試圖展示數據類org.apache.hadoop.fs.s3a。S3AFileSystem未找到while I am passing all the information which all are required.

我試著用這三個值配置fs.s3.aws.credentials。供應商但是毫無效果

org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider
com.amazonaws.auth.InstanceProfileCredentialsProvider
com.amazonaws.auth.EnvironmentVariableCredentialsProvider

如果表沒有數據給計數為0,但失敗的表有數據錯誤。

像print_schema,一切工作正常,顯示表等使用。但是當我試著看到數據

,告訴(),toPandas (), .toJSON ()。收集甚至拯救CSV也不工作

示例代碼:

從pyspark。sql進口SparkSession sc = SparkSession.builder.getOrCreate () sc._jsc.hadoopConfiguration()這裏(“fs.s3a.impl”、“org.apache.hadoop.fs.s3a.S3AFileSystem”) sc._jsc.hadoopConfiguration()這裏(fs.s3.aws.credentials。提供者,com.amazonaws.auth.EnvironmentVariableCredentialsProvider) val = sc.sql (“select *從客戶。100年_rating限製5”)val.show ()

錯誤1:,告訴()/ .toPandas () / .toJSON ()

Py4JJavaError:調用o1132.showString時發生一個錯誤。:org.apache.spark。SparkException:工作階段失敗而終止:任務1階段26.0失敗了4次,最近的失敗:在舞台上失去了任務1.3 26.0 (TID 498、10.101.36.145執行人2):. lang。RuntimeException: . lang。org.apache.hadoop.fs.s3a ClassNotFoundException:類。S3AFileSystem未找到

錯誤2:雖然csv保存數據:

Py4JJavaError:調用o531.csv時發生一個錯誤。:org.apache.spark。SparkException:工作中止。org.apache.spark.sql.execution.datasources.FileFormatWriter .write美元(FileFormatWriter.scala: 198) org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run (InsertIntoHadoopFsRelationCommand.scala: 159)美元org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult lzycompute (commands.scala: 104)

錯誤3:在計算一個特定的列

Py4JJavaError:調用o99.sql時發生一個錯誤。:org.apache.spark.sql。AnalysisException:不能解決“測試”(dataplatform.testing給定的輸入列:。Beplay体育安卓版本id, dataBeplay体育安卓版本platform.testing.name];1號線pos 13;總(名字# 247),[unresolvedalias('計數(測試[名字]),沒有一個)]+——SubqueryAlias dataplatform”。Beplay体育安卓版本“測試”+——HiveTableRelation“dataplatforBeplay体育安卓版本m”。“測試”,org.apache.hadoop.hive.serde2.lazy。LazySimpleSerDe [id # 246、# 247)名稱

請幫我解決這個問題很長時間的等待。

vivek_sinha · ‎06-12-2022

嗨@Arvind強奸

謝謝你的反應,現在我固定的問題。

的圖片我用發射火花執行人沒有aws jar。做必要的更改後開始工作。

但仍然謝謝你的回應。

在原帖子查看解決方案

User16764241763 · ‎06-11-2022

你好@vivek,

你能確認如果您正在運行這段代碼在磚平台上嗎?Beplay体育安卓版本

嚐試添加火花。jar配置有依賴關係的jar包括所有當你初始化引發會話

SparkSession \

.builder \

. config(“火花。瓶”、“x.jar y.jar”) \

.getOrCreate ()

spark.jars

以逗號分隔的jar包含驅動程序和執行程序類路徑。著是允許的。

匿名 · ‎06-12-2022

基於hadoop版本,kubernetes AWS sdk,顯然是不使用磚。

vivek_sinha · ‎06-12-2022

嗨@Arvind強奸

謝謝你的反應,現在我固定的問題。

的圖片我用發射火花執行人沒有aws jar。做必要的更改後開始工作。

但仍然謝謝你的回應。

Kaniz · ‎06-13-2022

嗨@Vivek Sinha,我很高興你已經解決了這個問題。你介意選擇最好的答案,因為它有利於社區嗎?

磚

在Jupyterhub PySpark k8 | |不能查詢數據| |類org.apache.hadoop.fs.s3a。S3AFileSystem未找到