pyspark.pandas.read_html¶
-
pyspark.pandas。
read_html
( io:聯盟(str,任何],匹配:str=“+”。,味道:可選(str]=沒有一個,頭:聯盟(int, int[]列表,沒有)=沒有一個,index_col:聯盟(int, int[]列表,沒有)=沒有一個,skiprows:聯盟[int、列表(int)片,沒有)=沒有一個,attrs:可選(Dict(str,str]]=沒有一個,parse_dates:bool=假,成千上萬的人:str=”、“,編碼:可選(str]=沒有一個,小數:str=“。”,轉換器:可選(Dict]=沒有一個,na_values:可選(任何]=沒有一個,keep_default_na:bool=真正的,displayed_only:bool=真正的 )→列表(pyspark.pandas.frame.DataFrame] ¶ -
讀到一個HTML表
列表
的DataFrame
對象。- 參數
-
- io str或類似文件
-
一個URL、一個類文件對象或一個包含HTML原始字符串。注意,lxml隻接受http、ftp和文件的url協議。如果你有一個開頭的URL
“https”
你可能試著刪除“年代”
。 - 匹配 str或編譯正則表達式,可選的
-
組表包含文本匹配regex或將返回字符串。除非極其簡單的HTML你可能需要傳遞一個空字符串。默認為”。+’ (match any non-empty string). The default value will return all tables contained on a page. This value is converted to a regular expression so that there is consistent behavior between Beautiful Soup and lxml.
- 味道 的字符串str或沒有,容器
-
要使用的解析引擎。“bs4”和“html5lib”是同義的,他們都是向後兼容。默認的
沒有一個
嚐試使用lxml
解析如果失敗回落bs4
+html5lib
。 - 頭 int或類似或沒有,可選的
-
行(或列表的行
MultiIndex
)使用的列標題。 - index_col int或類似或沒有,可選的
-
列的列(或列表)用於創建索引。
- skiprows int或類似或片或沒有,可選的
-
基於0。跳過的行數解析後列整數。如果一個整數序列或一片,將跳過的行索引的順序。注意單個元素序列意味著“跳過第n行”而一個整數意味著“跳過n行”。
- attrs dict或沒有可選的
-
這是一個字典的屬性,您可以通過使用識別的HTML表。這些都不是檢查有效性之前被傳遞給lxml或美麗的湯。然而,這些屬性必須是有效的HTML表屬性來正確工作。例如,
attrs={“id”:“表”}
是一個有效的屬性字典,因為“id”HTML標簽屬性是一個有效的HTML屬性任何HTML標簽按這個文檔。
attrs={“asdf”:“表”}
是不有效的屬性字典,因為“asdf”不是一個有效的HTML屬性,即使它是一個有效的XML屬性。可以找到有效的HTML 4.01表的屬性在這裏。HTML 5規範的工作草案在這裏。它包含了最新的信息在現代web表屬性上。
- parse_dates bool,可選
-
看到
read_csv ()
為更多的細節。 - 成千上萬的人 str,可選
-
分離器使用解析數以千計。默認為
”、“
。 - 編碼 str或沒有可選的
-
所使用的編碼解碼的web頁麵。默認為
沒有一個
。”“沒有”“保留前麵的編碼行為,取決於底層的解析器庫(例如,解析器庫將嚐試使用提供的編碼文檔)。 - 小數 str,違約”。
-
字符識別作為小數點(例如:使用”、“歐洲數據)。
- 轉換器 dict類型,默認沒有
-
Dict轉換特定列中的值的函數。鍵可以是整數或列標簽,值函數,將一個輸入參數,細胞(列)的內容,並返回轉換後的內容。
- na_values iterable,默認沒有
-
自定義NA值
- keep_default_na bool,默認的真
-
如果指定na_values keep_default_na是假的默認NaN值覆蓋,否則它們附加到
- displayed_only bool,默認的真
-
元素是否顯示:沒有“應該解析
- 返回
-
- dfs DataFrames列表