取消
顯示的結果
而不是尋找
你的意思是:

數據科學工作流的變化如何磚如果你開始與nosql數據庫(特別是文檔存儲)而不是更傳統的/ rdbms類型源?

jonathan-dufaul
價值貢獻

對不起,如果這是一個糟糕的問題。tl;博士

  1. 有沒有具體的例子的nosql數據科學工作流特別是磚,如果他們是什麼?
  2. 它總是這樣,我們的最終目標是dataframe ?

我們開始作為一個群鑲花在azure blob存儲文件,然後構造一個蜂巢metastore除此之外,和從那裏pyspark或火花sql,它像一個傳統的rdbms。我認為這是sql,對吧?或者如果有nosql,我們的目標是將數據轉化為一個sql格式盡快嗎?

如果我開始在一個文檔與數據存儲格式在azure blob存儲或連接到mongo,下遊在閱讀原始數據變化嗎?我當前可視化過程:

(原始數據)- >(轉換數據]- >[清潔/標準化數據]- >[培訓/選擇/部署/任何後)

如果這仍然是相關文檔存儲數據庫,並[清潔/標準化]一步永遠是dataframe,或者是一個dataframe隻是其中一個可能的輸入到機器學習過程嗎?如果是這樣,有多普遍dataframe作為輸入,而不是另一種格式嗎?任何具體的例子的一個工作流與nosql是極有幫助的。

得分我想象一個文檔存儲就像理想的格式作為輸入。

我的背景是在統計數據所以我一直得到一個幹淨的表作為輸入,因此,在我的工作現在我的觀念一直是“幹淨的桌子,然後做數據科學。”I'm just wondering if that's too narrow a view on how the data can go.

我搜索了很多排列關鍵字和我無路可走。

1回複1

Nhan_Nguyen
價值貢獻

很好的分享,謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map