bamboolib
預覽
這個特性是在公共預覽。
請注意
bamboolib在磚運行時支持11.0以上。
bamboolib是一個用戶界麵組件,允許從磚內沒有代碼數據分析和轉換筆記本。bamboolib幫助用戶更容易地處理數據和加速常見數據角力,探索和可視化的任務。當用戶與他們的數據,完成這些任務bamboolib自動生成Python在後台代碼。用戶可以與他人分享這段代碼,可以在自己的筆記本電腦運行這段代碼快速繁殖的原始任務。他們還可以使用bamboolib延長這些原始任務額外的數據任務,而不需要知道如何所有代碼。那些有經驗的編碼可以擴展這個代碼來創建更複雜的結果。
在幕後,bamboolib用途ipywidgets,這是一個互動的HTML小部件框架IPython內核。ipywidgets內部運行IPython內核。
需求
的
bamboolib
圖書館必須提供筆記本。你可以在工作區中安裝該庫從PyPI,隻在一個特定的集群安裝庫從PyPI或使圖書館隻提供給一個特定的筆記本與%皮普
命令。
快速入門
創建一個Python筆記本。
在筆記本的第一位細胞,輸入下麵的代碼,然後運行細胞。如果bamboolib是可以跳過這一步已經安裝在工作區或集群。
%皮普安裝bamboolib
在筆記本上第二單元,輸入下麵的代碼,然後運行單元。
進口bamboolib作為bam
在筆記本上第三單元,輸入下麵的代碼,然後運行單元。
bam
請注意
或者,您可以打印一個現有的大熊貓DataFrame顯示與特定DataFrame bamboolib使用。
繼續關鍵任務。
走查
您可以使用bamboolib本身或與現有的大熊貓DataFrame。
使用bamboolib本身
預排,你在筆記本使用bamboolib顯示一個銷售數據集的內容。然後你實驗的一些相關筆記本bamboolib自動為您生成的代碼。你完成銷售數據的副本通過查詢和排序設置的內容。
創建一個Python筆記本。
在筆記本的第一位細胞,輸入下麵的代碼,然後運行細胞。如果bamboolib是可以跳過這一步已經安裝在工作區或集群。
%皮普安裝bamboolib
在筆記本上第二單元,輸入下麵的代碼,然後運行單元。
進口bamboolib作為bam
在筆記本上第三單元,輸入下麵的代碼,然後運行單元。
bam
點擊虛擬數據加載。
在虛擬數據加載窗格中,為為測試bamboolib加載一個虛擬數據集中,選擇銷售數據集。
點擊執行。
顯示所有的行item_type是嬰兒食品:
在搜索行為列表中,選擇過濾器的行。
在過濾器的行窗格中,在選擇上麵的列表(在哪裏),選擇選擇行。
在下麵的列表中在哪裏中,選擇item_type。
在選擇旁邊的列表item_type中,選擇有價值的(s)。
在選擇值(年代)盒子旁邊有價值的(s)中,選擇嬰兒食品。
點擊執行。
複製的Python代碼自動生成查詢:
Cick複製代碼以下數據預覽。
粘貼和修改代碼:
在筆記本上第四單元,將複製的代碼粘貼。它應該是這樣的:
進口熊貓作為pddf=pd。read_csv(bam。sales_csv)#步驟:保持行item_type之一:嬰兒食品df=df。瘋狂的(df(“item_type”]。型號([“嬰兒食品”)))
添加到這段代碼隻顯示這些行order_prio是C細胞,然後運行:
進口熊貓作為pddf=pd。read_csv(bam。sales_csv)#步驟:保持行item_type之一:嬰兒食品df=df。瘋狂的(df(“item_type”]。型號([“嬰兒食品”)))#添加以下代碼。#步驟:保持行order_prio之一:Cdf=df。瘋狂的(df(“order_prio”]。型號([“C”)))df
提示
而不是寫這個代碼,你也可以做同樣的事情,隻是用bamboolib第三單元隻顯示這些行order_prio是C。這一步是延長bamboolib自動生成的代碼的一個例子。
對行排序地區以升序排序:
在第四單元內的小部件搜索行為列表中,選擇行排序。
在分類列(年代)窗格中,在選擇列列表中,選擇地區。
在旁邊的列表中地區中,選擇提升(a - z)。
點擊執行。
請注意
這相當於自己編寫下麵的代碼:
df=df。sort_values(通過=(“地區”),提升=(真正的])df
你也可以使用bamboolib第三單元對行進行排序地區以升序排序。這一步演示了如何使用bamboolib擴展您編寫的代碼。使用bamboolib時,它會自動在後台為您生成額外的代碼,這樣你可以進一步擴展延伸了代碼!
繼續關鍵任務。
用現有的DataFrame bamboolib
在這個介紹,您使用bamboolib顯示在你的筆記本上的內容熊貓DataFrame。這個DataFrame包含一組示例銷售數據的副本。然後你實驗的一些相關筆記本bamboolib自動為您生成的代碼。你完成通過查詢和排序DataFrame的一些內容。
創建一個Python筆記本。
在筆記本的第一位細胞,輸入下麵的代碼,然後運行細胞。如果bamboolib是可以跳過這一步已經安裝在工作區或集群。
%皮普安裝bamboolib
在筆記本上第二單元,輸入下麵的代碼,然後運行單元。
進口bamboolib作為bam
在筆記本上第三單元,輸入下麵的代碼,然後運行單元。
進口熊貓作為pddf=pd。read_csv(bam。sales_csv)df
注意,bamboolib隻支持熊貓DataFrames。將PySpark DataFrame熊貓DataFrame,電話toPandas在PySpark DataFrame。轉換一個熊貓的API在火花DataFrame熊貓DataFrame,電話to_pandas在熊貓火花DataFrame API。
點擊顯示bamboolib UI。
顯示所有的行item_type是嬰兒食品:
在搜索行為列表中,選擇過濾器的行。
在過濾器的行窗格中,在選擇上麵的列表(在哪裏),選擇選擇行。
在下麵的列表中在哪裏中,選擇item_type。
在選擇旁邊的列表item_type中,選擇有價值的(s)。
在選擇值(年代)盒子旁邊有價值的(s)中,選擇嬰兒食品。
點擊執行。
複製的Python代碼自動生成查詢。為此,單擊複製代碼以下數據預覽。
粘貼和修改代碼:
在筆記本上第四單元,將複製的代碼粘貼。它應該是這樣的:
#步驟:保持行item_type之一:嬰兒食品df=df。瘋狂的(df(“item_type”]。型號([“嬰兒食品”)))
添加到這段代碼隻顯示這些行order_prio是C細胞,然後運行:
#步驟:保持行item_type之一:嬰兒食品df=df。瘋狂的(df(“item_type”]。型號([“嬰兒食品”)))#添加以下代碼。#步驟:保持行order_prio之一:Cdf=df。瘋狂的(df(“order_prio”]。型號([“C”)))df
提示
而不是寫這個代碼,你也可以做同樣的事情,隻是用bamboolib第三單元隻顯示這些行order_prio是C。這一步是延長bamboolib自動生成的代碼的一個例子。
對行排序地區以升序排序:
一。在第四單元內的小部件,點擊行排序。
在分類列(年代)窗格中,在選擇列列表中,選擇地區。
在旁邊的列表中地區中,選擇提升(a - z)。
點擊執行。
請注意
這相當於自己編寫下麵的代碼:
df=df。sort_values(通過=(“地區”),提升=(真正的])df
你也可以使用bamboolib第三單元對行進行排序地區以升序排序。這一步演示了如何使用bamboolib擴展您編寫的代碼。使用bamboolib時,它會自動在後台為您生成額外的代碼,這樣你可以進一步擴展延伸了代碼!
繼續關鍵任務。
關鍵任務
將小部件添加到一個細胞
場景:你要bamboolib小部件顯示在一個單元中。
確保筆記本滿足需求bamboolib。
如果bamboolib不是已經安裝在工作區或集群在筆記本上運行下麵的代碼在一個單元中,最好是在第一個單元格:
%皮普安裝bamboolib
在筆記本上運行下麵的代碼,最好是在筆記本的第一或第二單元:
進口bamboolib作為bam
選項1:在你想讓小部件出現的細胞,添加以下代碼,然後運行該單元格:
bam
下麵的小部件出現在細胞的代碼。
或者:
選項2:在一個細胞包含一個引用熊貓DataFrame,打印DataFrame。例如,給出以下DataFrame定義,運行單元:
進口熊貓作為pd從datetime進口datetime,日期df=pd。DataFrame({“一個”:(1,2,3),“b”:(2。,3所示。,4所示。),“c”:(“string1”,“string2相等”,“string3”),' d ':(日期(2000年,1,1),日期(2000年,2,1),日期(2000年,3,1)),“e”:(datetime(2000年,1,1,12,0),datetime(2000年,1,2,12,0),datetime(2000年,1,3,12,0)]})df
下麵的小部件出現在細胞的代碼。
注意,bamboolib隻支持熊貓DataFrames。將PySpark DataFrame熊貓DataFrame,電話toPandas在PySpark DataFrame。轉換一個熊貓的API在火花DataFrame熊貓DataFrame,電話to_pandas在熊貓火花DataFrame API。
清晰的小部件
場景:你想清楚的內容一個小部件,然後讀取新的數據到現有的部件。
選項1:細胞內的運行下麵的代碼包含目標窗口小部件:
bam
小部件清理並重新顯示磚:閱讀從DBFS CSV文件,磚:加載數據庫表,虛擬數據加載按鈕。
請注意
如果錯誤的名字“砰”是不定義
出現,在筆記本上運行下麵的代碼(最好是在筆記本上的第一個細胞),然後再試一次:
進口bamboolib作為bam
選項2:在一個細胞包含一個引用熊貓DataFrame再次,打印DataFrame再次通過運行單元。小部件清理,然後顯示新的數據。
數據加載任務
一個示例數據集的內容解讀小部件
場景:你想讀一些示例數據到小部件,例如一些假裝銷售數據,以便您可以測試出小部件的功能。
點擊虛擬數據加載。
請注意
如果虛擬數據加載是不可見的,明確小部件選項1並再次嚐試。
在虛擬數據加載窗格中,為為測試bamboolib加載一個虛擬數據集選擇數據集的名稱,你想負載。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
小部件顯示數據集的內容。
提示
您可以切換當前小部件顯示不同的內容示例數據集:
在當前的小部件,單擊虛擬數據加載選項卡。
按照前麵的步驟其他示例數據集的內容讀入的小部件。
CSV文件的內容讀入的小部件
場景:你想讀一個CSV文件的內容在你的磚工作空間到小部件。
點擊磚:閱讀從DBFS CSV文件。
請注意
如果磚:閱讀從DBFS CSV文件是不可見的,明確小部件選項1並再次嚐試。
在讀CSV DBFS窗格中,瀏覽到包含目標位置CSV文件。
選擇目標CSV文件。
為Dataframe名字為編程,輸入一個名稱標識符作為一個CSV文件的內容DataFrame,或者離開df作為默認程序標識符。
為CSV值分隔符,輸入之間的字符值在CSV文件中,或離開,作為默認值分隔符(逗號)字符。
為十進製分隔符,輸入字符分隔小數在CSV文件中,或離開。(點)字符作為默認值分隔符。
為行限製:閱讀第N行——離開空沒有限製,輸入的最大行數讀到小部件,或離開100000年作為默認的行數,或離開這個盒子空指定沒有行限製。
點擊打開CSV文件。
小部件顯示CSV文件的內容,根據您指定的設置。
提示
您可以切換當前小部件顯示不同的CSV文件的內容:
在當前的小部件,單擊讀CSV DBFS選項卡。
按照前麵的步驟其他CSV文件的內容讀入的小部件。
讀數據庫表的內容到小部件
場景:你想讀數據庫表的內容在你的磚工作空間到小部件。
點擊磚:加載數據庫表。
請注意
如果磚:加載數據庫表是不可見的,明確小部件選項1並再次嚐試。
在磚:加載數據庫表窗格中,為默認數據庫的數據庫——離開空,輸入目標表的數據庫的名稱,或離開這個盒子空指定默認的數據庫。
為表,輸入目標表的名稱。
為行限製:閱讀第N行——離開空沒有限製,輸入的最大行數讀到小部件,或離開100000年作為默認的行數,或離開這個盒子空指定沒有行限製。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
小部件顯示表的內容,根據您指定的設置。
提示
您可以切換當前小部件顯示不同的表的內容:
在當前的小部件,單擊磚:加載數據庫表選項卡。
按照前麵的步驟其他表的內容讀到小部件。
數據操作任務
bamboolib提供50歲以上的數據操作。以下是一些常見的數據開始行動的任務。
選擇列
場景:你想隻顯示特定的表列的名字,相匹配的數據類型,或者一些正則表達式。例如,在假銷售數據集你想隻顯示item_type
和sales_channel
列,或者你想隻顯示的列包含字符串_date
在他們的列名。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型選擇,然後選擇選擇或刪除列。
選擇選擇或刪除列。
在選擇或刪除列窗格中,在選擇下拉列表中,選擇選擇。
選擇目標列名或包含標準。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
刪除列
場景:你想隱藏特定的表列的名字,相匹配的數據類型,或者一些正則表達式。例如,在假銷售數據集,你想隱藏order_prio
,order_date
,ship_date
列,或者你想隱藏所有列隻包含日期時間值。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型下降,然後選擇選擇或刪除列。
選擇選擇或刪除列。
在選擇或刪除列窗格中,在選擇下拉列表中,選擇下降。
選擇目標列名或包含標準。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
過濾器的行
場景:你想要顯示或隱藏特定的表行基於標準等特定列值匹配或失蹤。例如,在假銷售數據集,你想要隻顯示這些行item_type
列的值設置嬰兒食物
。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型過濾器,然後選擇過濾器的行。
選擇過濾器的行。
在過濾器的行窗格中,在選擇下拉列表上麵在哪裏中,選擇選擇行或刪除行。
指定第一個過濾器標準。
添加另一個過濾條件,點擊添加條件,並指定條件下一個過濾器。根據需要重複。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
行排序
場景:你想排序表行基於一個或多個列中的值。例如,在假銷售數據集,你想要顯示的行地區
列的值從A到Z的字母順序排列。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型排序,然後選擇行排序。
選擇行排序。
在分類列(年代)窗格中,選擇第一列排序,排序順序。
添加另一個標準,點擊添加一列,並指定下一個標準。根據需要重複。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
行和列分組任務
在本節中:
組由一個聚合函數行和列
場景:你想要顯示的行和列結果分組計算,和你想指定自定義分組名稱。例如,在假銷售數據集,你想要的行國家
列的值,顯示包含相同的行數國家
價值,給計算項名稱的列表country_count
。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型集團,然後選擇Group by和聚合(重命名)。
選擇Group by和聚合(重命名)。
在集團通過與列重命名窗格中,選擇列組,第一個計算,選擇指定的名稱計算列。
點擊添加另一個計算添加計算,並指定下一個計算和列名。根據需要重複。
指定在哪裏存儲結果。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
組行和列的多個聚合函數
場景:你想要顯示的行和列分組計算結果。例如,在假銷售數據集,你想要的行地區
,國家
,sales_channel
列的值,顯示了包含相同數量的行地區
和國家
價值sales_channel
,以及total_revenue
通過獨特的組合地區
,國家
,sales_channel
。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型集團,然後選擇Group by和總(默認)。
選擇Group by和總(默認)。
在集團通過與列重命名窗格中,選擇列組,第一個計算。
點擊添加另一個計算添加計算,並指定下一個計算。根據需要重複。
指定在哪裏存儲結果。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
刪除與缺失值的行
場景:你想刪除任何行,缺失值為指定的列。例如,在假銷售數據集,你想刪除任何行有一個失蹤item_type
價值。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型下降或刪除,然後選擇缺失值下降。
選擇缺失值下降。
在缺失值下降窗格中,選擇列刪除任何行有缺失值的列。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
刪除重複的行
場景:你想刪除任何行,複製指定列值。例如,在假銷售數據集,你想刪除任何行確切副本。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型下降或刪除,然後選擇刪除/刪除重複的。
選擇刪除/刪除重複的。
在刪除重複的窗格中,選擇要刪除的列的任何行重複值的列,然後選擇是否保持第一或最後一行有重複值。
為Dataframe名字為編程,輸入一個名稱標識符作為一個表的內容DataFrame,或者離開df作為默認程序標識符。
點擊執行。
查找和替換缺失值
場景:你想代替缺失值替換值的任何行指定的列。例如,在假銷售數據集你想替換任何行,缺失值item_type
列的值未知的項類型
。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型找到或取代,然後選擇查找和替換缺失值。
選擇查找和替換缺失值。
在代替缺失值窗格中,選擇來代替缺失值的列,然後指定替換值。
點擊執行。
創建一個列公式
場景:你想創建一個列,使用一個獨特的公式。例如,在假銷售數據集,你想創建一個列命名profit_per_unit
顯示劃分的結果total_profit
列值的units_sold
列值為每一行。
在數據選項卡,搜索行為下拉列表,做以下之一:
類型公式,然後選擇新列公式。
選擇新列公式。
在代替缺失值窗格中,選擇來代替缺失值的列,然後指定替換值。
點擊執行。
得到代碼以編程方式創建小部件作為DataFrame的當前狀態
場景:你想讓Python代碼編程的方式再現當前部件的狀態,表示為熊貓DataFrame。你想要運行這段代碼在不同的細胞在此工作簿或一個完全不同的工作簿。
點擊獲取代碼。
在出口代碼窗格中,單擊複製代碼。代碼複製到係統剪貼板。
將代碼粘貼到一個不同的細胞在此工作簿或不同的工作簿。
編寫額外的代碼來處理這個熊貓DataFrame編程方式,然後運行細胞。例如,顯示DataFrame內容,假設你的DataFrame編程方式的代表
df
:#你貼代碼,緊隨其後的是……df
限製
使用bamboolib爭論僅限於大約1000萬行數據。這個限製是基於熊貓和集群的計算資源。
使用數據可視化bamboolib僅限於大約1萬行。這個限製是基於情節。