解決世界難題越來越開源生態係統和磚

通過雷諾鑫

2020年1月23日在公司博客上

分享這篇文章

我們開始磚在2013年的一個小辦公室在伯克利認為數據有可能解決世界難題。我們進入2020年全球組織擁有超過1000名員工和客戶基礎從二人創業財富10年代。

在這篇文章裏,讓我們花一些時間來回顧和反思我們取得了2019年在一起。我們將詳細說明下列主題:解決世界上競爭最激烈的數據問題,新發展開源生態係統,以及我們如何與磚橋接兩個平台增強。Beplay体育安卓版本

解決世界的問題最為嚴重

隨著每年的流逝,我們遇到更多的用例,加強我們的信念,有效地利用數據是所有行業和學科產生深遠的影響,我們感到自豪的部分在這個旅程。

成千上萬的組織委托磚與關鍵任務的工作負載,並在各種會議上介紹了他們的進步傳播最佳實踐。2019年一些偉大的例子包括:

Regeneron能夠分析基因組數據的大規模語料庫,通過機器學習是能夠識別基因組的一部分,負責慢性肝病。通過快速處理所有這些數據,他們現在能夠創建和測試一個潛在拯救生命的藥物對抗慢性肝病。繼續這一勢頭,磚和Regeneron聯手今年早些時候發射發光,一個開源工具包,用於大規模基因組分析。
美國金融業監管局能夠打擊欺詐通過構建一個使用GraphFrames multi-petabyte圖,然後使用機器學習來確定哪些部分圖點擊,操縱市場。
Quby:歐洲最大的能源使用數據集,包括海量物聯網數據,Quby AI-powered發展所使用的產品每天成千上萬的用戶。學習更多關於如何保護地球,Quby結賬節約能源在家庭與一個統一的數據和人工智能方法。

新發展開源生態係統

在歐盟2019年的阿姆斯特丹火花+人工智能峰會上,我們興奮地預覽Apache 3.0火花,即將到來的主要版本預計將在2020年發行,以及其他生態係統的主要項目:新發展開源生態係統:Apache 3.0火花,三角洲湖和考拉。

開源三角洲湖項目

三角洲湖是一個開源存儲層,數據可靠性湖泊。三角洲湖提供ACID事務,可擴展的元數據處理,結合流媒體和批量數據處理。湖三角洲湖上運行你的現有數據,與Apache火花api完全兼容。

這個項目已經部署在成千上萬的組織和流程每周艾字節的數據在數據,成為一個不可或缺的支柱和AI架構。超過75%的數據掃描數據磚平台是三角洲湖!Beplay体育安卓版本

在2019年早些時候,我們宣布開源三角洲湖項目如上所述火花+人工智能2019年峰會主題。,我們很快進展從0.1.0版(2019年4月)版本0.5.0(2019年12月)。

https://www.youtube.com/watch?v=R4f6SKOetB4

一些亮點包括:

更全麵的博客列表,在線研討會,聚會和活動,請參考三角洲湖通訊(2019年10月版)。

現在嚐試三角洲湖,一個巨大的資源是火花+人工智能歐盟峰會2019教程:構建數據密集型分析程序三角洲湖。

容易規模熊貓和考拉!

數據科學家喜歡熊貓,但工作需要規模,我們宣布考拉開源項目。考拉允許數據科學家很容易從小型數據集過渡到大數據通過提供一個熊貓API在Apache火花。

盡管這個項目開始於2019年初,考拉現在每天20000下載!

中提到的博客怎麼處女Hyperloop減少處理時間和考拉從小時分鍾嗎:

通過改變不到1%的大熊貓,我們能夠運行代碼與考拉和火花。我們可以減少執行時間超過10倍,從幾個小時到幾分鍾,因為環境是可以水平伸縮,我們準備更多的數據。

簡化機器學習工作流程

介紹了2018年,MLflow項目有能力跟蹤指標、參數和工件作為實驗的一部分,包模型和可再生的ML項目,模型部署到批處理或實時服務平台Beplay体育安卓版本。

2019年,MLflow項目每月超過100萬次的下載!

來幫助簡化機器學習模型的工作流,在2019年秋季,我們介紹了MLflow模型注冊表基於MLflow的現有能力為組織提供一個中心位置分享ML模式,合作將他們從實驗測試和生產,並實現審批和管理工作流。

磚統一分析平台Beplay体育安卓版本

的磚統一分析平台Beplay体育安卓版本是大規模的雲平台數據工Beplay体育安卓版本程和協作的科學數據。beplay娱乐ios

2019年,創造了超過磚統一數據分析平台Beplay体育安卓版本一百萬個虛擬機(vm)每一天!

我們擴大了磚平台與許多新功能!Beplay体育安卓版本完整的列表是相當廣泛的,可以發現在磚平台發布說明(Beplay体育安卓版本AWS | Azure)。

優化存儲

在磚運行時的6.0中,我們提高了融合,使本地文件api來顯著提高讀寫速度以及支持文件大於2 GB。如果你需要更快和更可靠的讀取和寫入比如分布式模型訓練,你會發現此增強功能特別有用。例如,正如這火花+人工智能峰會2019會話簡化分布式TensorFlow培訓快速圖像分類在星巴克,一個簡單的CNN模型的訓練提高了10倍以上(從2.62分鍾下降到14.65秒)。

磚池

最近,我們推出了磚池加快您的數據管道快速和規模集群。磚池是VM實例的緩存管理允許您實現減少集群開始和伸縮時間從幾分鍾到秒!

2019年,我們介紹了更多的可用區域使用磚。截至2019年底,有29個地區中可用Azure和13個地區AWS有更多的未來2020年!

磚的運行時和磚運行時機器學習

2019年,磚運行時(DBR)發布的機器學習!截至2019年12月,有DBR 6.2 GA,DBR 6.2毫升,6.2 DBR基因組學。每個DBR版本測試並驗證了不同版本的兼容性從而簡化管理TensorFlow, TensorBoard, PyTorch, Horovod, XGBoost, MLflow, Hyperopt, MLeap等等。

為了簡化Python庫和環境管理,我們還介紹了磚與Conda運行時(β)我們的許多Python用戶更傾向於管理與Conda Python環境和圖書館,迅速成為一個標準。Conda需要一個全麵的方法來管理包通過啟用:

的創建和管理環境
安裝Python包
容易可再生的環境
與皮普的兼容性

磚與Conda運行時(AWS|Azure)提供了一個更新和優化列表默認包和一個靈活的Python環境對於高級用戶需要最大限度的控製方案和環境。

自動日誌MLflow管理

管理MLflow磚上提供的托管版本MLflow完全集成與磚的安全模型、互動空間和MLflow側邊欄磚企業版的和磚社區版。

https://www.youtube.com/watch?v=DFn3hS-s7OA

與管理MLflow數據科學家,現在更容易跟蹤他們的機器學習培訓為Apache火花MLlib Hyperopt, Keras, Tensorflow無需改變任何代碼的訓練。

增加機器學習與數據磚實驗室的AutoML工具包

注意:磚實驗室的AutoML工具包是一個實驗室項目加速用例的磚統一的分析平台。Beplay体育安卓版本

如前所述在引發歐洲2019 +人工智能峰會會議增加機器學習與數據磚實驗室AutoML工具包,可以大大簡化流程,評估和優化利用機器學習模型磚實驗室AutoML工具包。使用AutoML工具包還允許您交付結果更快,因為它允許您自動化各種機器學習管道階段。

我們進一步簡化了AutoML工具包通過釋放AutoML FamilyRunner允許您測試的家庭不同的ML算法如前所述使用AutoML工具包的FamilyRunner管道api來簡化和自動化貸款違約預測。

封閉的思想

2019年在磚是偉大的一年!2019年11月,我們聘請了第1000個全職員工。已經改變了很多自從我們第一年(2013年),你可以閱讀更多關於它慶祝增長在磚和1000名員工!

作為我們2019年驚人的增長的一部分,我們有我們的係列E資助(2019年2月5日)和F係列融資(2019年10月22日)以62億美元的估值。我們留出一個€1億(1.1億美元)的係列F擴大歐洲發展中心總部位於阿姆斯特丹。在今年年底,我們宣布我們開放在多倫多的磚工程辦公室2020年!

今年(2020)將更令人興奮的一年即將到來的Apache火花3.0版本和我們繼續增強三角洲湖,MLflow考拉,AutoML等等!如果你有興趣,找到你的磚!

免費試著磚

開始

看到所有公司博客上的帖子