12-19-201604:50點
嗨,團隊,
你能幫我在實施資訊classifer pyspark使用分布式體係結構和處理數據集。
甚至我想驗證資訊模型的測試數據集。
我試圖使用scikit學習但在本地程序運行。我想distirbute分類器在訓練模式。
最後,我想驗證分類器測試數據集和計算精度。
12-22-2016上午09:51
指的是編程指南見MLlib中可用的算法:
http://spark.apache.org/docs/latest/ml-classification-regression.html
沒有資訊MLlib,你可能想嚐試另一個可用的算法。
12-27-2016上午10:51
嗨——然而,火花是出了名的難以並行化,因為資訊是一個“懶惰的學習者”和模型本身是整個數據集。大多數單機實現依靠KD樹或球樹來存儲整個數據集在一台機器的內存。我建議使用scikit-learn單機實現用一個簡單的隨機樣本數據集的如果你真的想使用資訊。
02-04-202006:31點
嘿,關於使用NEC Frovedis (https://github.com/frovedis/frovedis)框架是一樣的。
參考:https://github.com/frovedis/frovedis/blob/master/src/foreign_if/python/examples/unsupervised_knn_dem..。
它適用於分布式框架(基於MPI),可以在任何係統上運行。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。