磚助理:樣本的任務

預覽

這個特性是在公共預覽

磚助理的工作作為一個基於ai同伴pair-programmer讓你更有效率的在創建筆記本時,查詢和文件。它可以幫助你快速回答問題通過生成,優化,完成,解釋和修複代碼和查詢。

對於一般的磚助理的信息,明白了磚助理的常見問題

提示您提供可以顯著改變的輸出助理。嚐試添加一個以下的提示:

  • “沒有說明文本”在生成代碼。

  • “解釋的代碼我一步一步”。

  • “給我兩個/三個選項,我可以試一試”。

  • “簡潔”。

您還可以嚐試以下類型的查詢:

  • 寫一個SQL UDF扭轉一個字符串。

  • 添加日期過濾器,這個查詢結果限製在過去的30天。

  • 幫我畫一個圖從一個SQL查詢的結果。查詢結果在熊貓DataFrame的格式。x軸應貼上“星期”和y軸應貼上“每周不同的用戶”。

生成代碼示例

分析數據

開始代碼:

進口熊貓作為pd#讀樣本紐約出租車旅行數據集和負載DataFramedf=火花(“samples.nyctaxi.trips”)

助理提示:

生成熊貓代碼將pyspark dataframe熊貓dataframe和選擇十大最昂貴的旅行從基於fare_amount df列

創建一個DataFrame讀者

開始代碼:

視圖中的數據例如數據集。

顯示(dbutilsfsls(“dbfs: / databricks-datasets /例如/數據- 001 /”))

助理提示:

生成代碼閱讀。例如數據集的csv文件

改變或優化代碼示例

翻譯熊貓PySpark

開始代碼:

進口熊貓作為pd#火花DataFrame轉換為熊貓DataFramepdf=dftoPandas()#選擇基於fare_amount列十大最昂貴的旅行most_expensive_trips=pdfnlargest(10,“fare_amount”)#顯示結果most_expensive_trips

助理提示:

將這段代碼轉換成PySpark

生成更高效的代碼

助理提示:

給我低效率的python代碼的代碼示例,解釋為什麼它是低效的,然後給我一個改進的版本更高效的代碼。解釋為什麼它是更有效的,那麼給我一個測試出來的字符串列表和代碼基準嚐試每一個。

助理提示:

給我寫一個函數基準的執行代碼在這個細胞,然後給我寫這段代碼的另一種方法是更有效的基準,並將表現得更好。

完整的代碼示例

您可以使用LakeSense從評論在一個單元中生成代碼。

  • 在macOS,按轉變+選項+空間控製+選項+空間直接在一個單元中。

  • 在Windows上,按ctrl+轉變+空間直接在一個單元中。

接受建議的代碼,出版社選項卡

相反一個字符串

開始代碼:

#編寫代碼來扭轉一個字符串。

執行探索性數據分析

開始代碼:

#葡萄酒數據集加載到sklearn DataFrame,桶分成3組的數據質量,然後想象情節中柱形圖表。

解釋代碼示例

基本代碼的解釋

開始代碼:

PySpark代碼旅行的總數和傳感器之間的票價金額之和跳傘郵政編碼。

進口pyspark.sql.functions作為Ffare_by_route=dfgroupBy(“pickup_zip”,“dropoff_zip”)gg(F總和(“fare_amount”)別名(“total_fare”),F(“fare_amount”)別名(“num_trips”))排序(F上校(“num_trips”)desc())顯示(fare_by_route)

助理提示:

解釋這段代碼所做的

快速查找文檔

助理提示:

當我應該使用重新分區()與合並()在Apache火花?

助理提示:

有什麼區別的各種pandas_udf函數(在PySpark火花/考拉和熊貓),當我應該選擇?你能告訴我一個例子,每個數據集與鑽石?

修複代碼示例

調試

開始代碼:

這是相同的代碼中使用基本代碼例子解釋,但是丟失的import語句。它拋出錯誤”這拋出錯誤:NameError:名字‘F’沒有定義”。

fare_by_route=dfgroupBy(“pickup_zip”,“dropoff_zip”)gg(F總和(“fare_amount”)別名(“total_fare”),F(“fare_amount”)別名(“num_trips”))排序(F上校(“num_trips”)desc())顯示(fare_by_route)

助理提示:

我如何修複這個錯誤?“F”是什麼?

幫助與錯誤

開始代碼:

這段代碼拋出錯誤“AnalysisException: [UNRESOLVED_COLUMN.WITH_SUGGESTION]”。

pyspark.sql.functions進口上校#創建一個包含兩個列的dataframe: a和bdf=火花範圍(5)選擇(上校(“id”)別名(“一個”),上校(“id”)別名(“b”))#試圖選擇一個不存在的列cdf選擇(上校(“c”))顯示()

助理提示:

為什麼我得到這個錯誤和如何修複它?