bamboolib

預覽

這個特性是在公共預覽

請注意

bamboolib在磚運行時支持11.0以上。

bamboolib是一個用戶界麵組件,允許從磚內沒有代碼數據分析和轉換筆記本。bamboolib幫助用戶更容易地處理數據和加速常見數據角力,探索和可視化的任務。當用戶與他們的數據,完成這些任務bamboolib自動生成Python在後台代碼。用戶可以與他人分享這段代碼,可以在自己的筆記本電腦運行這段代碼快速繁殖的原始任務。他們還可以使用bamboolib延長這些原始任務額外的數據任務,而不需要知道如何所有代碼。那些有經驗的編碼可以擴展這個代碼來創建更複雜的結果。

在幕後,bamboolib用途ipywidgets,這是一個互動的HTML小部件框架IPython內核。ipywidgets內部運行IPython內核

需求

快速入門

  1. 創建一個Python筆記本。

  2. 附加滿足的筆記本一個集群需求

  3. 在筆記本的第一位細胞,輸入下麵的代碼,然後運行細胞。如果bamboolib是可以跳過這一步已經安裝在工作區或集群

    %皮普安裝bamboolib
  4. 在筆記本上第二單元,輸入下麵的代碼,然後運行單元。

    進口bamboolib作為bam
  5. 在筆記本上第三單元,輸入下麵的代碼,然後運行單元。

    bam

    請注意

    或者,您可以打印一個現有的大熊貓DataFrame顯示與特定DataFrame bamboolib使用。

  6. 繼續關鍵任務

走查

您可以使用bamboolib本身或與現有的大熊貓DataFrame

使用bamboolib本身

預排,你在筆記本使用bamboolib顯示一個銷售數據集的內容。然後你實驗的一些相關筆記本bamboolib自動為您生成的代碼。你完成銷售數據的副本通過查詢和排序設置的內容。

  1. 創建一個Python筆記本。

  2. 附加滿足的筆記本一個集群需求

  3. 在筆記本的第一位細胞,輸入下麵的代碼,然後運行細胞。如果bamboolib是可以跳過這一步已經安裝在工作區或集群

    %皮普安裝bamboolib
  4. 在筆記本上第二單元,輸入下麵的代碼,然後運行單元。

    進口bamboolib作為bam
  5. 在筆記本上第三單元,輸入下麵的代碼,然後運行單元。

    bam
  6. 點擊虛擬數據加載

  7. 虛擬數據加載窗格中,為為測試bamboolib加載一個虛擬數據集中,選擇銷售數據集

  8. 點擊執行

  9. 顯示所有的行item_type嬰兒食品:

    1. 搜索行為列表中,選擇過濾器的行

    2. 過濾器的行窗格中,在選擇上麵的列表(在哪裏),選擇選擇行

    3. 在下麵的列表中在哪裏中,選擇item_type

    4. 選擇旁邊的列表item_type中,選擇有價值的(s)

    5. 選擇值(年代)盒子旁邊有價值的(s)中,選擇嬰兒食品

    6. 點擊執行

  10. 複製的Python代碼自動生成查詢:

    1. Cick複製代碼以下數據預覽。

  11. 粘貼和修改代碼:

    1. 在筆記本上第四單元,將複製的代碼粘貼。它應該是這樣的:

      進口熊貓作為pddf=pdread_csv(bamsales_csv)#步驟:保持行item_type之一:嬰兒食品df=df瘋狂的(df(“item_type”]型號([“嬰兒食品”)))
    2. 添加到這段代碼隻顯示這些行order_prioC細胞,然後運行:

      進口熊貓作為pddf=pdread_csv(bamsales_csv)#步驟:保持行item_type之一:嬰兒食品df=df瘋狂的(df(“item_type”]型號([“嬰兒食品”)))#添加以下代碼。#步驟:保持行order_prio之一:Cdf=df瘋狂的(df(“order_prio”]型號([“C”)))df

    提示

    而不是寫這個代碼,你也可以做同樣的事情,隻是用bamboolib第三單元隻顯示這些行order_prioC。這一步是延長bamboolib自動生成的代碼的一個例子。

  12. 對行排序地區以升序排序:

    1. 在第四單元內的小部件搜索行為列表中,選擇行排序

    2. 分類列(年代)窗格中,在選擇列列表中,選擇地區

    3. 在旁邊的列表中地區中,選擇提升(a - z)

    4. 點擊執行

    請注意

    這相當於自己編寫下麵的代碼:

    df=dfsort_values(通過=(“地區”),提升=(真正的])df

    你也可以使用bamboolib第三單元對行進行排序地區以升序排序。這一步演示了如何使用bamboolib擴展您編寫的代碼。使用bamboolib時,它會自動在後台為您生成額外的代碼,這樣你可以進一步擴展延伸了代碼!

  13. 繼續關鍵任務

用現有的DataFrame bamboolib

在這個介紹,您使用bamboolib顯示在你的筆記本上的內容熊貓DataFrame。這個DataFrame包含一組示例銷售數據的副本。然後你實驗的一些相關筆記本bamboolib自動為您生成的代碼。你完成通過查詢和排序DataFrame的一些內容。

  1. 創建一個Python筆記本。

  2. 附加滿足的筆記本一個集群需求

  3. 在筆記本的第一位細胞,輸入下麵的代碼,然後運行細胞。如果bamboolib是可以跳過這一步已經安裝在工作區或集群

    %皮普安裝bamboolib
  4. 在筆記本上第二單元,輸入下麵的代碼,然後運行單元。

    進口bamboolib作為bam
  5. 在筆記本上第三單元,輸入下麵的代碼,然後運行單元。

    進口熊貓作為pddf=pdread_csv(bamsales_csv)df

    注意,bamboolib隻支持熊貓DataFrames。將PySpark DataFrame熊貓DataFrame,電話toPandas在PySpark DataFrame。轉換一個熊貓的API在火花DataFrame熊貓DataFrame,電話to_pandas在熊貓火花DataFrame API。

  6. 點擊顯示bamboolib UI

  7. 顯示所有的行item_type嬰兒食品:

    1. 搜索行為列表中,選擇過濾器的行

    2. 過濾器的行窗格中,在選擇上麵的列表(在哪裏),選擇選擇行

    3. 在下麵的列表中在哪裏中,選擇item_type

    4. 選擇旁邊的列表item_type中,選擇有價值的(s)

    5. 選擇值(年代)盒子旁邊有價值的(s)中,選擇嬰兒食品

    6. 點擊執行

  8. 複製的Python代碼自動生成查詢。為此,單擊複製代碼以下數據預覽。

  9. 粘貼和修改代碼:

    1. 在筆記本上第四單元,將複製的代碼粘貼。它應該是這樣的:

      #步驟:保持行item_type之一:嬰兒食品df=df瘋狂的(df(“item_type”]型號([“嬰兒食品”)))
    2. 添加到這段代碼隻顯示這些行order_prioC細胞,然後運行:

      #步驟:保持行item_type之一:嬰兒食品df=df瘋狂的(df(“item_type”]型號([“嬰兒食品”)))#添加以下代碼。#步驟:保持行order_prio之一:Cdf=df瘋狂的(df(“order_prio”]型號([“C”)))df

    提示

    而不是寫這個代碼,你也可以做同樣的事情,隻是用bamboolib第三單元隻顯示這些行order_prioC。這一步是延長bamboolib自動生成的代碼的一個例子。

  10. 對行排序地區以升序排序:

    一。在第四單元內的小部件,點擊行排序

    1. 分類列(年代)窗格中,在選擇列列表中,選擇地區

    2. 在旁邊的列表中地區中,選擇提升(a - z)

    3. 點擊執行

    請注意

    這相當於自己編寫下麵的代碼:

    df=dfsort_values(通過=(“地區”),提升=(真正的])df

    你也可以使用bamboolib第三單元對行進行排序地區以升序排序。這一步演示了如何使用bamboolib擴展您編寫的代碼。使用bamboolib時,它會自動在後台為您生成額外的代碼,這樣你可以進一步擴展延伸了代碼!

  11. 繼續關鍵任務

關鍵任務

將小部件添加到一個細胞

場景:你要bamboolib小部件顯示在一個單元中。

  1. 確保筆記本滿足需求bamboolib。

  2. 如果bamboolib不是已經安裝在工作區或集群在筆記本上運行下麵的代碼在一個單元中,最好是在第一個單元格:

    %皮普安裝bamboolib
  3. 在筆記本上運行下麵的代碼,最好是在筆記本的第一或第二單元:

    進口bamboolib作為bam
  4. 選項1:在你想讓小部件出現的細胞,添加以下代碼,然後運行該單元格:

    bam

    下麵的小部件出現在細胞的代碼。

    或者:

    選項2:在一個細胞包含一個引用熊貓DataFrame,打印DataFrame。例如,給出以下DataFrame定義,運行單元:

    進口熊貓作為pddatetime進口datetime,日期df=pdDataFrame({“一個”:(1,2,3),“b”:(2。,3所示。,4所示。),“c”:(“string1”,“string2相等”,“string3”),' d ':(日期(2000年,1,1),日期(2000年,2,1),日期(2000年,3,1)),“e”:(datetime(2000年,1,1,12,0),datetime(2000年,1,2,12,0),datetime(2000年,1,3,12,0)]})df

    下麵的小部件出現在細胞的代碼。

    注意,bamboolib隻支持熊貓DataFrames。將PySpark DataFrame熊貓DataFrame,電話toPandas在PySpark DataFrame。轉換一個熊貓的API在火花DataFrame熊貓DataFrame,電話to_pandas在熊貓火花DataFrame API。

清晰的小部件

場景:你想清楚的內容一個小部件,然後讀取新的數據到現有的部件。

選項1:細胞內的運行下麵的代碼包含目標窗口小部件:

bam

小部件清理並重新顯示磚:閱讀從DBFS CSV文件,磚:加載數據庫表,虛擬數據加載按鈕。

請注意

如果錯誤的名字“砰”定義出現,在筆記本上運行下麵的代碼(最好是在筆記本上的第一個細胞),然後再試一次:

進口bamboolib作為bam

選項2:在一個細胞包含一個引用熊貓DataFrame再次,打印DataFrame再次通過運行單元。小部件清理,然後顯示新的數據。

數據加載任務

一個示例數據集的內容解讀小部件

場景:你想讀一些示例數據到小部件,例如一些假裝銷售數據,以便您可以測試出小部件的功能。

  1. 點擊虛擬數據加載

    請注意

    如果虛擬數據加載是不可見的,明確小部件選項1並再次嚐試。

  2. 虛擬數據加載窗格中,為為測試bamboolib加載一個虛擬數據集選擇數據集的名稱,你想負載。

  3. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  4. 點擊執行

    小部件顯示數據集的內容。

提示

您可以切換當前小部件顯示不同的內容示例數據集:

  1. 在當前的小部件,單擊虛擬數據加載選項卡。

  2. 按照前麵的步驟其他示例數據集的內容讀入的小部件。

CSV文件的內容讀入的小部件

場景:你想讀一個CSV文件的內容在你的磚工作空間到小部件。

  1. 點擊磚:閱讀從DBFS CSV文件

    請注意

    如果磚:閱讀從DBFS CSV文件是不可見的,明確小部件選項1並再次嚐試。

  2. 讀CSV DBFS窗格中,瀏覽到包含目標位置CSV文件。

  3. 選擇目標CSV文件。

  4. Dataframe名字為編程,輸入一個名稱標識符作為一個CSV文件的內容DataFrame,或者離開df作為默認程序標識符。

  5. CSV值分隔符,輸入之間的字符值在CSV文件中,或離開,作為默認值分隔符(逗號)字符。

  6. 十進製分隔符,輸入字符分隔小數在CSV文件中,或離開(點)字符作為默認值分隔符。

  7. 行限製:閱讀第N行——離開空沒有限製,輸入的最大行數讀到小部件,或離開100000年作為默認的行數,或離開這個盒子空指定沒有行限製。

  8. 點擊打開CSV文件

    小部件顯示CSV文件的內容,根據您指定的設置。

提示

您可以切換當前小部件顯示不同的CSV文件的內容:

  1. 在當前的小部件,單擊讀CSV DBFS選項卡。

  2. 按照前麵的步驟其他CSV文件的內容讀入的小部件。

讀數據庫表的內容到小部件

場景:你想讀數據庫表的內容在你的磚工作空間到小部件。

  1. 點擊磚:加載數據庫表

    請注意

    如果磚:加載數據庫表是不可見的,明確小部件選項1並再次嚐試。

  2. 磚:加載數據庫表窗格中,為默認數據庫的數據庫——離開空,輸入目標表的數據庫的名稱,或離開這個盒子空指定默認的數據庫。

  3. ,輸入目標表的名稱。

  4. 行限製:閱讀第N行——離開空沒有限製,輸入的最大行數讀到小部件,或離開100000年作為默認的行數,或離開這個盒子空指定沒有行限製。

  5. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  6. 點擊執行

    小部件顯示表的內容,根據您指定的設置。

提示

您可以切換當前小部件顯示不同的表的內容:

  1. 在當前的小部件,單擊磚:加載數據庫表選項卡。

  2. 按照前麵的步驟其他表的內容讀到小部件。

數據操作任務

bamboolib提供50歲以上的數據操作。以下是一些常見的數據開始行動的任務。

選擇列

場景:你想隻顯示特定的表列的名字,相匹配的數據類型,或者一些正則表達式。例如,在假銷售數據集你想隻顯示item_typesales_channel列,或者你想隻顯示的列包含字符串_date在他們的列名。

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型選擇,然後選擇選擇或刪除列

    • 選擇選擇或刪除列

  2. 選擇或刪除列窗格中,在選擇下拉列表中,選擇選擇

  3. 選擇目標列名或包含標準。

  4. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  5. 點擊執行

刪除列

場景:你想隱藏特定的表列的名字,相匹配的數據類型,或者一些正則表達式。例如,在假銷售數據集,你想隱藏order_prio,order_date,ship_date列,或者你想隱藏所有列隻包含日期時間值。

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型下降,然後選擇選擇或刪除列

    • 選擇選擇或刪除列

  2. 選擇或刪除列窗格中,在選擇下拉列表中,選擇下降

  3. 選擇目標列名或包含標準。

  4. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  5. 點擊執行

過濾器的行

場景:你想要顯示或隱藏特定的表行基於標準等特定列值匹配或失蹤。例如,在假銷售數據集,你想要隻顯示這些行item_type列的值設置嬰兒食物

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型過濾器,然後選擇過濾器的行

    • 選擇過濾器的行

  2. 過濾器的行窗格中,在選擇下拉列表上麵在哪裏中,選擇選擇行刪除行

  3. 指定第一個過濾器標準。

  4. 添加另一個過濾條件,點擊添加條件,並指定條件下一個過濾器。根據需要重複。

  5. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  6. 點擊執行

行排序

場景:你想排序表行基於一個或多個列中的值。例如,在假銷售數據集,你想要顯示的行地區列的值從A到Z的字母順序排列。

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型排序,然後選擇行排序

    • 選擇行排序

  2. 分類列(年代)窗格中,選擇第一列排序,排序順序。

  3. 添加另一個標準,點擊添加一列,並指定下一個標準。根據需要重複。

  4. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  5. 點擊執行

行和列分組任務

組由一個聚合函數行和列

場景:你想要顯示的行和列結果分組計算,和你想指定自定義分組名稱。例如,在假銷售數據集,你想要的行國家列的值,顯示包含相同的行數國家價值,給計算項名稱的列表country_count

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型集團,然後選擇Group by和聚合(重命名)

    • 選擇Group by和聚合(重命名)

  2. 集團通過與列重命名窗格中,選擇列組,第一個計算,選擇指定的名稱計算列。

  3. 點擊添加另一個計算添加計算,並指定下一個計算和列名。根據需要重複。

  4. 指定在哪裏存儲結果。

  5. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  6. 點擊執行

組行和列的多個聚合函數

場景:你想要顯示的行和列分組計算結果。例如,在假銷售數據集,你想要的行地區,國家,sales_channel列的值,顯示了包含相同數量的行地區國家價值sales_channel,以及total_revenue通過獨特的組合地區,國家,sales_channel

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型集團,然後選擇Group by和總(默認)

    • 選擇Group by和總(默認)

  2. 集團通過與列重命名窗格中,選擇列組,第一個計算。

  3. 點擊添加另一個計算添加計算,並指定下一個計算。根據需要重複。

  4. 指定在哪裏存儲結果。

  5. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  6. 點擊執行

刪除與缺失值的行

場景:你想刪除任何行,缺失值為指定的列。例如,在假銷售數據集,你想刪除任何行有一個失蹤item_type價值。

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型下降刪除,然後選擇缺失值下降

    • 選擇缺失值下降

  2. 缺失值下降窗格中,選擇列刪除任何行有缺失值的列。

  3. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  4. 點擊執行

刪除重複的行

場景:你想刪除任何行,複製指定列值。例如,在假銷售數據集,你想刪除任何行確切副本。

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型下降刪除,然後選擇刪除/刪除重複的

    • 選擇刪除/刪除重複的

  2. 刪除重複的窗格中,選擇要刪除的列的任何行重複值的列,然後選擇是否保持第一或最後一行有重複值。

  3. Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。

  4. 點擊執行

查找和替換缺失值

場景:你想代替缺失值替換值的任何行指定的列。例如,在假銷售數據集你想替換任何行,缺失值item_type列的值未知的類型

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型找到取代,然後選擇查找和替換缺失值

    • 選擇查找和替換缺失值

  2. 代替缺失值窗格中,選擇來代替缺失值的列,然後指定替換值。

  3. 點擊執行

創建一個列公式

場景:你想創建一個列,使用一個獨特的公式。例如,在假銷售數據集,你想創建一個列命名profit_per_unit顯示劃分的結果total_profit列值的units_sold列值為每一行。

  1. 數據選項卡,搜索行為下拉列表,做以下之一:

    • 類型公式,然後選擇新列公式

    • 選擇新列公式

  2. 代替缺失值窗格中,選擇來代替缺失值的列,然後指定替換值。

  3. 點擊執行

數據操作曆史任務

視圖中的行動列表小部件

場景:你想看到所有的更改的列表,在小部件,從最近的變化。

點擊曆史。行為出現在列表中轉換的曆史窗格。

撤銷最近的行動的小部件

場景:你想恢複最近的變化在小部件。

做下列之一:

  • 單擊逆時針方向箭頭圖標。

  • 點擊曆史,在轉換的曆史窗格中,單擊撤消最後一步

重做最近的行動的小部件

場景:你想恢複最近的恢複是在小部件。

做下列之一:

  • 按順時針方向箭頭圖標。

  • 點擊曆史,在轉換的曆史窗格中,單擊恢複最後一步

在小部件改變最近的行動

場景:你想改變最近拍攝的小部件。

  1. 做下列之一:

    • 點擊鉛筆圖標。

    • 點擊曆史,在轉換的曆史窗格中,單擊編輯最後一步

  2. 進行所需的更改,然後單擊執行

得到代碼以編程方式創建小部件作為DataFrame的當前狀態

場景:你想讓Python代碼編程的方式再現當前部件的狀態,表示為熊貓DataFrame。你想要運行這段代碼在不同的細胞在此工作簿或一個完全不同的工作簿。

  1. 點擊獲取代碼

  2. 出口代碼窗格中,單擊複製代碼。代碼複製到係統剪貼板。

  3. 將代碼粘貼到一個不同的細胞在此工作簿或不同的工作簿。

  4. 編寫額外的代碼來處理這個熊貓DataFrame編程方式,然後運行細胞。例如,顯示DataFrame內容,假設你的DataFrame編程方式的代表df:

    #你貼代碼,緊隨其後的是……df

限製

  • 使用bamboolib爭論僅限於大約1000萬行數據。這個限製是基於熊貓和集群的計算資源。

  • 使用數據可視化bamboolib僅限於大約1萬行。這個限製是基於情節。