跳轉到主要內容
工程的博客

三個原則來選擇機器學習平台Beplay体育安卓版本

2021年6月24日 工程的博客

分享這篇文章

這篇博客是第二個在ML係列平台,操作和管理。Beplay体育安卓版本第一,看到Rafi Kurlansik的帖子“以數據為中心的ML平台的必要性。”Beplay体育安卓版本

我最近采訪了一個數據平台網絡安全公司的高級主管,他評論說:“我不明白你怎麼可以不會過時的機Beplay体育安卓版本器學習,因為有這樣一個混亂的不斷變化的工具。“這是一種常見的情緒。機器學習(ML)比幾乎任何其他最近的技術進步更快;庫通常是新鮮的研究實驗室,有無數的供應商廣告工具和平台(包括磚)。Beplay体育安卓版本然而,正如我們說,平台總監來了解他們在一個完美Beplay体育安卓版本的位置不會過時的技術公司的數據科學(DS)和ML的舉措。他們公司需要一個Beplay体育安卓版本能夠支持不斷變化的技術。

在磚在我年,我見過許多組織建立數據平台支持DS &毫升團隊長期的。Beplay体育安卓版本最初這些組織所麵臨的挑戰通常可以分為幾個方麵:分離他們的數據平台和ML工具,工程和DS &毫升之間缺乏溝通和協作團隊,和過去的技術選擇抑製變化和增長。Beplay体育安卓版本在這個博客中,我收集了高層建議引導這些組織為他們選定的新技術和提高DS &毫升平台。Beplay体育安卓版本這些常見的錯誤——及其解決方案——被組織成三個原則。

原則1:簡化數據訪問毫升

DS和ML需要方便地訪問數據。常見的障礙包括專有的數據格式,數據帶寬約束和管理錯位。

和我一起工作的一個公司提供了一個代表性的例子。這個公司有一個數據倉庫用幹淨的數據,由數據維護工程。也有數據科學家與業務部門合作,使用現代工具如XGBoost和TensorFlow,但是他們不能輕易得到的數據倉庫到DS &毫升工具,推遲許多項目。此外,平台基礎架構團隊擔心數Beplay体育安卓版本據科學家複製數據到筆記本電腦或工作站、開放安全風險。解決這些摩擦引起的數據warehouse-centric毫升方法,我們的挑戰分成三個部分。

開放數據格式Python和R

在這個例子中,第一個問題是使用專有數據存儲。數據倉庫使用專有格式和需要一個昂貴的數據出口過程為DS &毫升提取數據。另一方麵,DS &毫升工具通常基於Python和R -不是SQL——並期望開放格式:拚花、JSON、CSV、等磁盤上和熊貓或Apache火花DataFrames在內存中。這個挑戰是加劇了圖像和音頻等非結構化數據,在數據倉庫和不符合自然需要專門的庫進行處理。

重新建構湖數據管理在數據存儲(GCP GCS Azure ADLS, AWS S3)允許本公司合並兩個數據工程數據管理和DS & ML,使它更容易為數據科學家訪問數據。數據科學家現在可以使用Python和R,加載數據直接從主存儲器DataFrame——允許更快的模型和迭代開發。他們也可以使用專門的格式如圖像和音頻——分塊ML-powered新產品方向。

數據帶寬和規模

DS & ML-friendly格式之外,這家公司麵臨數據帶寬和規模的挑戰。喂養ML算法與數據從數據倉庫可以為小的數據工作。但應用程序日誌、圖片、文本、物聯網遙測等現代數據來源很容易累慘了數據倉庫,成為非常昂貴的存儲和提取DS和ML算法不可能緩慢。

通過數據存儲的主要數據層湖,這個公司能夠處理數據集大小10倍,同時降低成本為數據存儲和運動。更多的曆史數據提高了模型的精度,尤其是在處理罕見的例外事件。

統一的數據安全性和治理

這家公司麵臨的挑戰從其先前的數據管理係統,最複雜和高風險是在數據安全性和治理。團隊管理數據訪問數據庫管理員,熟悉表格訪問。但是,數據科學家需要導出的數據集從這些管理表向現代毫升工具獲取數據。這種脫節導致的安全問題和歧義數月的延遲當科學家需要獲得新的數據源的數據。

這些疼痛點,他們選擇更多統一平台,允許DBeplay体育安卓版本S &毫升工具訪問數據在相同的治理模型數據工程師和數據庫管理員使用。數據科學家們可以將大型數據集加載到熊貓和PySpark dataframes容易,和數據庫管理員可以限製數據訪問基於用戶的身份,防止數據漏出。

在簡化數據訪問的成功

這個客戶做了兩個關鍵技術變化對DS &毫升簡化數據訪問:(1)使用數據存儲作為他們的主要數據存儲和湖(2)實現共同治理模型在湖表和文件支持的數據存儲。這些選擇帶領他們走向lakehouse架構利用三角洲湖提供數據與數據管道工程可靠性,數據科學的開放數據格式毫升和管理員所需的治理模型所需的安全。通過這種現代化的數據架構,數據科學家,都不能顯示噪音值新用例在不到一半的時間。

之前的架構結合數據和數據倉庫

Lakehouse架構啟用所有角色與三角洲湖

一些我最喜歡的客戶成功故事簡化數據訪問包括:

  • 外展毫升工程師用來浪費時間設置管道來訪問數據,但移動管理平台支持ETL和ML減少摩擦。Beplay体育安卓版本
  • 埃德蒙茲、數據倉庫用於阻礙數據科學家的工作效率。現在,格雷格Rokita(執行董事)說,“磚民主化的數據,工程和機器學習的數據,並允許我們灌輸組織內部的數據驅動的原則。”
  • 殼牌,磚民主化的訪問數據,允許高級分析大得多的數據,包括所有部件和庫存仿真設施為1.5 +百萬客戶和建議。beplay体育app下载地址

原則2:方便數據工程與科學之間的協作

數據平台必須簡Beplay体育安卓版本化數據工程和DS &毫升團隊之間的合作,除了數據訪問的機製在前一節中討論。常見的障礙是造成這兩組使用斷開連接的平台進行計算和部署,數據處理和管理。Beplay体育安卓版本

我的第二個客戶有成熟的數據科學團隊,但認識到他們太斷開數據工程同行。數據科學DS-centric平台他們喜歡,配有筆記本,按需(Beplay体育安卓版本雲)工作站和支持他們的ML庫。他們能夠構建新的、有價值的模型和數據工程對連接過程模型為批推理Apache Spark-based生產係統。然而這個過程是痛苦的。盡管數據科學團隊熟悉使用Python和R從他們的工作站,他們不熟悉Java環境和集群計算工程所使用的數據。這些差距導致尷尬的切換過程:重寫Python和R模型在Java中,檢查以確保相同的行為,重寫featurization邏輯和手動共享模型文件跟蹤電子表格。這些做法導致幾個月的延誤,介紹生產中的錯誤和不允許管理監督。

跨團隊的環境管理

在上麵的示例中,第一個挑戰是環境管理。毫升模型不是孤立的對象;他們的行為取決於他們的環境在庫版本,和模型預測可以改變。這個客戶的團隊是向後彎腰複製毫升工程生產係統開發環境的數據。現代毫升世界需要Python(有時R),所以他們需要的工具環境複製像virtualenv conda和碼頭工人容器。

認識到這一需求,他們轉向MLflow引擎蓋下,使用這些工具盾牌數據科學家從環境管理的複雜性。MLflow,數據科學家productionization延誤了一個多月和少擔心升級到最新毫升庫。

涉及數據科學家,數據的機器學習工作流程工程師,和部署工程師

數據準備featurization

DS和ML,良好的數據就是一切ETL /英語教學之間的界線(通常由數據工程師)和featurization(通常由數據科學家)是任意的。對於這個客戶,當數據科學家需要在生產中新的或改進的功能,他們將請求數據工程師更新管道。有時長時間延誤造成浪費的工作在等待業務優先級發生了變化。

當選擇一個新的平台,他們尋找工具來支持數據Beplay体育安卓版本處理邏輯的切換。最後,他們選擇磚工作作為傳球給隊友的觀點:數據科學家可以用Python和R代碼到單位(崗位),和數據工程可以部署它們,使用現有的協調器(Apache氣流)和CI / CD係統(Jenkins)。新流程更新featurization邏輯幾乎完全自動化。

共享機器學習模型

毫升模型本質上是大量的數據和業務目標蒸餾成簡明的業務邏輯。我與這個客戶合作,我覺得諷刺,可怕的這些寶貴的資產被存儲和共享沒有適當的治理。操作上,缺乏治理導致費力,手工流程生產(文件和電子表格),以及更少的監管從團隊領導和董事。

他們是改變遊戲規則的移動MLflow管理服務,提供共享機製毫升模型和移動到生產,所有安全訪問控製在一個模式下注冊表。軟件和自動執行之前手動流程和管理監督模型作為他們走向生產。

促進合作的成功

這個客戶的關鍵技術選擇促進合作在一個統一的平台,同時支持數據工程和數據科學需要共享的治理和安全模型。Beplay体育安卓版本與磚的一些關鍵技術,使他們的用例磚運行時和集群管理的計算和環境需求,工作定義的工作單元(AWS/Azure/GCP文檔),開放api編製(AWS/Azure/GCP文檔)和CI / CD集成(AWS/Azure/GCP文檔),管理MLflowMLOps和治理。

客戶成功案例具體工程和數據科學合作數據包括:

  • 康泰納仕受益於打破牆壁團隊之間管理數據管道和團隊管理先進的分析。保羅Fryzel(人工智能基礎設施的主要工程師)說,“磚一直是一個令人難以置信的強大的端到端解決方案。它是允許各種不同的團隊成員來自不同背景的快速進入和利用大量數據可操作的商業決策。”
  • Iterable,斷開數據工程和數據科學團隊之間避免訓練和部署毫升模型以可重複的方式。通過移動平台共享的跨團隊,簡化Beplay体育安卓版本了ML的生命周期,他們的數據團隊簡化模型和過程的再現性。
  • Showtime,毫升的開發和部署手冊和容易出錯,直到MLflow-based遷移到管理平台。Beplay体育安卓版本磚被從他們的工作流操作開銷,減少對新車型上市時間和特性。

原則3:計劃改變

組織和技術將會改變。數據規模將增長;團隊技能和目標將進化;隨著時間的推移和技術開發並將取代。一個顯而易見的,但常見的,戰略錯誤是沒有計劃的規模。另一個常見但更微妙的錯誤選擇不可移植的技術數據、邏輯和模型。

我將分享第三個客戶的故事來說明這最後的原則。我曾與早期階段顧客希望創建ML模式內容分類。他們選擇了磚,但很大程度上依賴於我們的專業服務由於缺乏專業知識。一年之後,有一些初始值顯示他們的業務,他們可以雇傭更多的科學家和專家數據同時收集了近50 x更多數據。他們需要規模,轉向分布式毫升庫,並與其他數據團隊更緊密地集成。

規劃擴展

該客戶發現,數據、模型和組織規模隨著時間的推移。他們最初可能適合數據倉庫數據,但它需要遷移到另一個架構隨著數據規模和分析需求的成長。他們DS &毫升團隊最初可以在筆記本電腦上工作,但一年後,他們需要更強大的集群。通過提前計劃Lakehouse架構和一個平台支持單機和分布式毫升,這個組織準備平穩快速增長的路徑。Beplay体育安卓版本

可移植性和“構建還是購買”的決定

可移植性是一個更微妙的挑戰。技術戰略是有時過於簡單化的“構建還是購買”的決定,如“建築內部平台使用開源技術可以允許定製和避免鎖定,而購買一個Beplay体育安卓版本現成的,專有的工具集可以允許更快的設置和進步。”這一觀點提供了一個不愉快的選擇:或者讓一個巨大的前期投資在一個定製的平台或被鎖定的專有技術。Beplay体育安卓版本

然而,這種說法是誤導,因為它沒有區分數據平台和基礎設施,一方麵,和項目級數據技術,Beplay体育安卓版本另一方麵。數據存儲層,編排工具和元數據服務是常見的平台級技術選擇;Beplay体育安卓版本數據格式、語言和ML庫是常見的項目級的技術選擇。這兩種類型的選擇應以不同的方式處理當計劃改變。它有助於把數據平台和基礎設施作為一個公司的通用容器和管道專業Beplay体育安卓版本數據、邏輯和模型。

規劃項目級的技術變化

項目級技術應該簡單的交換。新數據ML-powered產品可能有不同的要求,需要新數據源,毫升庫或服務集成。靈活地改變這些項目級技術選擇允許業務適應和競爭。

這個平台Beplay体育安卓版本必須允許這種靈活性,在理想的情況下,鼓勵團隊避免專用工具和格式進行數據和模型。對於我的客戶,雖然他們始於scikit-learn,他們能夠切換到火花毫升和分布式TensorFlow不改變他們的平台或MLOps工具。Beplay体育安卓版本

規劃平台變化Beplay体育安卓版本

Beplay体育安卓版本平台應該允許可移植性。為公司長期服Beplay体育安卓版本務平台,平台必須避免鎖定:移動數據、邏輯和模型與平台必須簡單和便宜。當數據平台並不是一個Beplay体育安卓版本公司的核心使命和力量,它是有意義的組織購買平台移動得更快——隻要平台允許該公司保持靈活,移動它的其他有價值的資產。

對於我的客戶,選擇一個平台,允許他們使用開放工具和api Beplay体育安卓版本scikit-learn,火花毫升和MLflow幫助在兩個方麵。首先,它簡化了平台決定給他們信心,決定是可逆的。Beplay体育安卓版本第二,他們能夠與其他數據集成團隊通過移動代碼和模型和從其他平台。Beplay体育安卓版本

類型的變化 Beplay体育安卓版本平台需求 項目級技術的例子
擴展 小和大數據有效的過程。

提供單節點和分布式計算。

規模熊貓→Apache火花或者考拉。

規模scikit-learn→引發毫升。

規模Keras→Horovod。

新的數據類型和應用領域 支持任意數據類型和開放的數據格式。

同時支持批處理和流。

容易與其他係統集成。

使用和結合δ,拚花、JSON、CSV、TXT, JPG,日本,MPEG等。

流數據從web應用程序的後端。

新角色和組織 數據支持數據科學家,工程師和業務分析師。

提供可伸縮的治理和訪問控製。

可視化數據(一)情節在筆記本和可插入BI工具(b)儀表板。

通過(a)自定義代碼和運行毫升AutoML (b)。

變化的平台Beplay体育安卓版本 用戶擁有自己的數據和ML模型;沒有出口稅。

用戶擁有他們的代碼;與git同步。

使用開放代碼api,如Keras和火花毫升保持項目級的工作負載平台獨立的。Beplay体育安卓版本

成功的計劃改變

這個客戶的關鍵技術的選擇,使他們能夠適應變化lakehouse架構,一個Beplay体育安卓版本支持單機和分布式毫升MLflow作為MLOps library-agnostic框架。這些選擇的簡化他們的路徑擴展數據50 x,切換到更複雜的ML模型和擴展他們的團隊和它的技能。

我的一些首選為客戶成功故事改變計劃和可移植性:

  • 埃德蒙茲數據團隊所需的基礎設施,支持數據處理和ML的需求,如最新的ML框架。這個基礎設施的維護需要大量DevOps的努力。磚管理平台提供了靈活性,同時減少了DevOpsBeplay体育安卓版本開銷。
  • 作為Quby有經驗的數據增長到多個pb和ML的數量模型1 +百萬,遺留數據基礎設施規模或運行不可靠。遷移到三角洲湖和MLflow提供所需的規模,和遷移是磚以來簡化支持數據工程所需的各種工具和數據科學團隊。
  • 數據團隊殼牌範圍廣泛的技能和分析項目(160人工智能項目有更多的未來)。與磚作為一個基本組件的外殼。人工智Beplay体育安卓版本能平台,殼牌所需的靈活性處理當前和未來的數據需求。

應用原則

很容易列出大原則和說,“去做它!“但實現它們需要坦率的評估你的技術堆棧,組織和商業,緊隨其後的是計劃和執行。磚在構建數據平台提供了一個豐富的經驗支持DS &毫升。Beplay体育安卓版本

與我們合作的最成功的組織遵循一些最佳實踐:他們認識到長期建築規劃應該和短期同時發生示威活動的影響和價值。值是高管進行通信,通過調整數據科學團隊與業務單位及其優先用例。跨組織協調幫助指導組織改進,從簡化流程創建卓越中心(CoE)。

這篇文章隻是抓這些主題的表麵。其他一些偉大的材料包括:

下一篇文章將深入探究毫升行動,即監視和管理您的模型部署後,以及如何利用完整的磚平台關閉循環模型的生命周期。Beplay体育安卓版本

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map