Pyspark版本:
2.4.5
蜂巢版本:1.2
Hadoop版本:2.7
aws sdk Jar: 1.7.4
Hadoop-AWS: 2.7.3
當我試圖展示數據類org.apache.hadoop.fs.s3a。S3AFileSystem未找到while I am passing all the information which all are required.
我試著用這三個值配置fs.s3.aws.credentials。供應商但是毫無效果
如果表沒有數據給計數為0,但失敗的表有數據錯誤。
像print_schema,一切工作正常,顯示表等使用。但是當我試著看到數據
,告訴(),toPandas (), .toJSON ()。收集甚至拯救CSV也不工作
示例代碼:
從pyspark。sql進口SparkSession sc = SparkSession.builder.getOrCreate () sc._jsc.hadoopConfiguration()這裏(“fs.s3a.impl”、“org.apache.hadoop.fs.s3a.S3AFileSystem”) sc._jsc.hadoopConfiguration()這裏(fs.s3.aws.credentials。提供者,com.amazonaws.auth.EnvironmentVariableCredentialsProvider) val = sc.sql (“select *從客戶。100年_rating限製5”)val.show ()
錯誤1:,告訴()/ .toPandas () / .toJSON ()
Py4JJavaError:調用o1132.showString時發生一個錯誤。:org.apache.spark。SparkException:工作階段失敗而終止:任務1階段26.0失敗了4次,最近的失敗:在舞台上失去了任務1.3 26.0 (TID 498、10.101.36.145執行人2):. lang。RuntimeException: . lang。org.apache.hadoop.fs.s3a ClassNotFoundException:類。S3AFileSystem未找到
錯誤2:雖然csv保存數據:
Py4JJavaError:調用o531.csv時發生一個錯誤。:org.apache.spark。SparkException:工作中止。org.apache.spark.sql.execution.datasources.FileFormatWriter .write美元(FileFormatWriter.scala: 198) org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run (InsertIntoHadoopFsRelationCommand.scala: 159)美元org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult lzycompute (commands.scala: 104)
錯誤3:在計算一個特定的列
Py4JJavaError:調用o99.sql時發生一個錯誤。:org.apache.spark.sql。AnalysisException:不能解決“測試”(dataplatform.testing給定的輸入列:。Beplay体育安卓版本id, dataBeplay体育安卓版本platform.testing.name];1號線pos 13;總(名字# 247),[unresolvedalias('計數(測試[名字]),沒有一個)]+——SubqueryAlias dataplatform”。Beplay体育安卓版本“測試”+——HiveTableRelation“dataplatforBeplay体育安卓版本m”。“測試”,org.apache.hadoop.hive.serde2.lazy。LazySimpleSerDe [id # 246、# 247)名稱
請幫我解決這個問題很長時間的等待。