對不起,如果這是一個糟糕的問題。tl;博士
我們開始作為一個群鑲花在azure blob存儲文件,然後構造一個蜂巢metastore除此之外,和從那裏pyspark或火花sql,它像一個傳統的rdbms。我認為這是sql,對吧?或者如果有nosql,我們的目標是將數據轉化為一個sql格式盡快嗎?
如果我開始在一個文檔與數據存儲格式在azure blob存儲或連接到mongo,下遊在閱讀原始數據變化嗎?我當前可視化過程:
(原始數據)- >(轉換數據]- >[清潔/標準化數據]- >[培訓/選擇/部署/任何後)
如果這仍然是相關文檔存儲數據庫,並[清潔/標準化]一步永遠是dataframe,或者是一個dataframe隻是其中一個可能的輸入到機器學習過程嗎?如果是這樣,有多普遍dataframe作為輸入,而不是另一種格式嗎?任何具體的例子的一個工作流與nosql是極有幫助的。
得分我想象一個文檔存儲就像理想的格式作為輸入。
我的背景是在統計數據所以我一直得到一個幹淨的表作為輸入,因此,在我的工作現在我的觀念一直是“幹淨的桌子,然後做數據科學。”I'm just wondering if that's too narrow a view on how the data can go.
我搜索了很多排列關鍵字和我無路可走。