取消
顯示的結果
而不是尋找
你的意思是:

通過使用pyspark跟蹤數據分布的變化

sridhar0109
新的因素

你好,

我正在創建一個數據質量指示板。我已經創建了一些規則檢查null列,檢查數據類型的列,刪除重複等。

我們遵循圖案的結構,並應用這些數據質量檢查銅表並插入行正如上麵提到的,通過數據質量檢查。

現在,我想跟蹤列分布在一段時間內像例如:有銷售數據為不同的車型,那麼一個分布的每輛車的銷售模式在一段時間內。

請建議如果有現成的庫可以實現這個任務?

謝謝!

2回答2

匿名
不適用

@Sridhar瓦拉納西:

這裏有幾個選項你可以考慮:

  1. 熊貓:大熊貓是一個流行的Python庫的數據操作和分析。它提供了工具,數據清洗、數據爭吵和數據可視化,有很多內置函數的分析數據。您可以使用熊貓將數據加載到一個dataframe然後使用其內置函數來計算一個列的分布。
  2. seaborn: seaborn是基於matplotlib Python數據可視化庫。它提供了一個高層接口來創建有用的和有吸引力的統計圖形。你可以使用seaborn創建不同類型的可視化,包括線圖表,柱狀圖,和熱圖,追蹤一個列的分布。
  3. 情節:情節是一個強大的數據可視化庫創建交互式、基於web的圖表和儀表板。它有一個廣泛的圖表類型和定製選項,允許您創建複雜的可視化,可以很容易地與他人共享。你可以使用圖來創建交互式圖表,散點圖,和其他類型的可視化跟蹤一個列的分布。
  4. Apache超集:Apache超集是一個開源的數據可視化和勘探平台,允許您使用一個基於web的界麵創建交互式儀表板和可視化。Beplay体育安卓版本它支持各種數據源和提供了大量的內置可視化類型,包括時序圖、直方圖、散點圖。您可以使用Apache超集來創建自定義儀表板,跟蹤一個列的分布。

這些隻是幾個例子庫可用於創建數據質量的儀表板和跟蹤一個列的分布。根據您的具體要求和數據的複雜性,您可能需要使用這些庫的組合或其他工具來實現你想要的結果。

Vidula_Khanna
主持人
主持人

嗨@Sridhar瓦拉納西

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map