@Govardhana Reddy:
方法1:
從pyspark。sql進口SparkSession火花= SparkSession.builder.appName (“MyApp”) .getOrCreate() #與指定的模式創建一個空DataFrame empty_df =火花。createDataFrame([],模式= [“column1”、“column2”, " column3 "]) empty_df.show ()
方法2:從字典
data =[{“名稱”:“愛麗絲”,“年齡”:25},{“名稱”:“鮑勃”,“年齡”:30},{“名稱”:“查理”,“年齡”:35}]df = spark.createDataFrame(數據)df.show ()
方法3:從元組的列表
data =[(“愛麗絲”,25),(“Bob”, 30),(“查理”,35)]df =火花。createDataFrame(數據、模式=[“名稱”,“年齡”])df.show ()
方法4:從熊貓dataframe
熊貓作為pd導入pdf = pd。DataFrame({ "name": ["Alice", "Bob", "Charlie"], "age": [25, 30, 35] }) df = spark.createDataFrame(pdf) df.show()
方法5:從cvs文件
df = spark.read.csv(“路徑/ /文件。csv”,標題= True, inferSchema = True) df.show ()
方法6:從鋪文件
df = spark.read.parquet(路徑/ / file.parquet) df.show ()