磚助理:樣本的任務

預覽

這個特性是在公共預覽。

磚助理的工作作為一個基於ai同伴pair-programmer讓你更有效率的在創建筆記本時,查詢和文件。它可以幫助你快速回答問題通過生成,優化,完成,解釋和修複代碼和查詢。

對於一般的磚助理的信息,明白了磚助理的常見問題。

提示您提供可以顯著改變的輸出助理。嚐試添加一個以下的提示:

“沒有說明文本”在生成代碼。
“解釋的代碼我一步一步”。
“給我兩個/三個選項,我可以試一試”。
“簡潔”。

您還可以嚐試以下類型的查詢:

寫一個SQL UDF扭轉一個字符串。
添加日期過濾器,這個查詢結果限製在過去的30天。
幫我畫一個圖從一個SQL查詢的結果。查詢結果在熊貓DataFrame的格式。x軸應貼上“星期”和y軸應貼上“每周不同的用戶”。

生成代碼示例

分析數據

開始代碼:

              進口熊貓作為pd#讀樣本紐約出租車旅行數據集和負載DataFramedf=火花。讀。表(“samples.nyctaxi.trips”)
             

助理提示:

              生成熊貓代碼將pyspark dataframe熊貓dataframe和選擇十大最昂貴的旅行從基於fare_amount df列
             

創建一個DataFrame讀者

開始代碼:

視圖中的數據例如數據集。

              顯示(dbutils。fs。ls(“dbfs: / databricks-datasets /例如/數據- 001 /”))
             

助理提示:

生成代碼閱讀。例如數據集的csv文件

改變或優化代碼示例

翻譯熊貓PySpark

開始代碼:

              進口熊貓作為pd#火花DataFrame轉換為熊貓DataFramepdf=df。toPandas()#選擇基於fare_amount列十大最昂貴的旅行most_expensive_trips=pdf。nlargest(10,“fare_amount”)#顯示結果most_expensive_trips
             

助理提示:

將這段代碼轉換成PySpark

生成更高效的代碼

助理提示:

              給我低效率的python代碼的代碼示例,解釋為什麼它是低效的,然後給我一個改進的版本更高效的代碼。解釋為什麼它是更有效的,那麼給我一個測試出來的字符串列表和代碼基準嚐試每一個。
             

助理提示:

              給我寫一個函數基準的執行代碼在這個細胞,然後給我寫這段代碼的另一種方法是更有效的基準,並將表現得更好。
             

完整的代碼示例

您可以使用LakeSense從評論在一個單元中生成代碼。

在macOS,按轉變+選項+空間或控製+選項+空間直接在一個單元中。
在Windows上,按ctrl+轉變+空間直接在一個單元中。

接受建議的代碼,出版社選項卡。

相反一個字符串

開始代碼:

#編寫代碼來扭轉一個字符串。

執行探索性數據分析

開始代碼:

              #葡萄酒數據集加載到sklearn DataFrame,桶分成3組的數據質量,然後想象情節中柱形圖表。
             

解釋代碼示例

基本代碼的解釋

開始代碼:

PySpark代碼旅行的總數和傳感器之間的票價金額之和跳傘郵政編碼。

              進口pyspark.sql.functions作為Ffare_by_route=df。groupBy(“pickup_zip”,“dropoff_zip”)。gg(F。總和(“fare_amount”)。別名(“total_fare”),F。數(“fare_amount”)。別名(“num_trips”))。排序(F。上校(“num_trips”)。desc())顯示(fare_by_route)
             

助理提示:

解釋這段代碼所做的

快速查找文檔

助理提示:

當我應該使用重新分區()與合並()在Apache火花?

助理提示:

              有什麼區別的各種pandas_udf函數(在PySpark火花/考拉和熊貓),當我應該選擇?你能告訴我一個例子,每個數據集與鑽石?
             

修複代碼示例

調試

開始代碼:

這是相同的代碼中使用基本代碼例子解釋,但是丟失的import語句。它拋出錯誤”這拋出錯誤:NameError:名字‘F’沒有定義”。

              fare_by_route=df。groupBy(“pickup_zip”,“dropoff_zip”)。gg(F。總和(“fare_amount”)。別名(“total_fare”),F。數(“fare_amount”)。別名(“num_trips”))。排序(F。上校(“num_trips”)。desc())顯示(fare_by_route)
             

助理提示:

我如何修複這個錯誤?“F”是什麼?

幫助與錯誤

開始代碼:

這段代碼拋出錯誤“AnalysisException: [UNRESOLVED_COLUMN.WITH_SUGGESTION]”。

              從pyspark.sql.functions進口上校#創建一個包含兩個列的dataframe: a和bdf=火花。範圍(5)。選擇(上校(“id”)。別名(“一個”),上校(“id”)。別名(“b”))#試圖選擇一個不存在的列cdf。選擇(上校(“c”))。顯示()
             

助理提示:

為什麼我得到這個錯誤和如何修複它?