-
參數
-
-
查詢
str
-
SQL查詢
-
index_col
str和str列表,可選的
-
列名稱用於引發代表pandas-on-Spark指數。的索引名稱pandas-on-Spark被忽略。默認情況下,索引總是丟失。
請注意
如果你想保留指數,顯式地使用DataFrame.reset_index ()
,並將其傳遞給sql語句index_col參數。
例如,
> > >psdf=ps。DataFrame({“一個”:(1,2,3),“B”:【4,5,6)},指數=(“一個”,“b”,“c”])> > >new_psdf=psdf。reset_index()> > >ps。sql(“SELECT *{new_psdf}”,index_col=“指數”,new_psdf=new_psdf)…一個B指數1 4b 2 5c 3 6
MultiIndex,
> > >psdf=ps。DataFrame(…{“一個”:(1,2,3),“B”:(4,5,6)},…指數=pd。MultiIndex。from_tuples(…((“一個”,“b”),(“c”,“d”),(“e”,“f”)),的名字=(“index1”,“index2”]…),…)> > >new_psdf=psdf。reset_index()> > >ps。sql(…“SELECT *{new_psdf}”,index_col=(“index1”,“index2”),new_psdf=new_psdf)…一個Bindex1 index2一個b 1 4c d 2 5e f 3 6
還注意到索引名稱(s)應與現有的名字。
-
kwargs
-
其他變量,用戶需要設置,可以在查詢中引用
-
返回
-
-
pandas-on-Spark DataFrame
例子
調用內置的SQL函數。
> > >ps。sql(“SELECT * FROM範圍(10)id > 7”)id0 81 9
> > >ps。sql(“SELECT * FROM範圍(10)id >{bound1}和id <{bound2}”,bound1=7,bound2=9)id0 8
> > >mydf=ps。範圍(10)> > >x=元組(範圍(4))> > >ps。sql(“選擇{ser}從{mydf}在id{x}”,爵士=mydf。id,mydf=mydf,x=x)id0 012 - 23個3
混合pandas-on-Spark和熊貓DataFrames連接操作。注意,指數下降。
> > >ps。sql(“‘…選擇m1。,m2.b…從{table1}m1內連接{表}平方米…m1。關鍵= m2.key…ORDER BY m1。,m2.b”,…表1=ps。DataFrame({“一個”:(1,2),“關鍵”:(“一個”,“b”}),…表二=pd。DataFrame({“b”:(3,4,5),“關鍵”:(“一個”,“b”,“b”]}))一個b0 1 31 2 42 2 5
同時,可以查詢使用係列。
> > >psdf=ps。DataFrame({“一個”:(1,2,3),“B”:【4,5,6)},指數=(“一個”,“b”,“c”])> > >ps。sql(“選擇{mydf.A}從{mydf}”,mydf=psdf)一個0 11 22 3