pyspark.pandas.read_parquet¶
-
pyspark.pandas。
read_parquet
( 路徑:str,列:可選(列表(str]]=沒有一個,index_col:可選(列表(str]]=沒有一個,pandas_metadata:bool=假,* *選項:任何 )→pyspark.pandas.frame.DataFrame¶ -
從文件路徑加載一個拚花對象,返回一個DataFrame。
- 參數
-
- 路徑 字符串
-
文件路徑
- 列 列表,默認=沒有
-
如果不是沒有,隻有這些列將從文件讀取。
- index_col str和str列表,可選的,默認值:沒有
-
表的索引列火花。
- pandas_metadata bool,默認值是錯誤的
-
如果這是真的,試著尊重如果大熊貓的拚花寫文件的元數據。
- 選項 dict
-
所有其他選項直接傳遞到火花的數據源。
- 返回
-
- DataFrame
另請參閱
-
DataFrame.to_parquet
-
DataFrame.read_table
-
DataFrame.read_delta
-
DataFrame.read_spark_io
例子
> > >ps。範圍(1)。to_parquet(”% s/ read_spark_io data.parquet”%路徑)> > >ps。read_parquet(”% s/ read_spark_io data.parquet”%路徑,列=(“id”])id0 0
你可以保留指數往返如下。
> > >ps。範圍(1)。to_parquet(”% s/ read_spark_io data.parquet”%路徑,index_col=“指數”)> > >ps。read_parquet(”% s/ read_spark_io data.parquet”%路徑,列=(“id”),index_col=“指數”)…id指數0 0