康寧磚Lakehouse平台上建立端到端毫升Beplay体育安卓版本
2023年1月5日 在公司博客上
“這個博客是由丹尼斯•Kamotsky康寧”首席軟件工程師
康寧公司是世界領先的創新者之一在材料科學近200年了。這些創新包括第一玻璃燈泡托馬斯·愛迪生的電燈,第一個低損耗光纖,細胞基質,使催化轉換器,和第一防損的蓋玻片為移動設備。在康寧,繼續推動邊界,我們使用機器學習等破壞性技術提供更好的產品和驅動效率。
開車更好的效率和機器學習在我們的生產過程
提供高質量的產品是一個關鍵的目標在我們世界各地的生產設施,我們繼續探討毫升可以幫助我們實現這一目標。這是真的,例如,與我們工廠生產康寧陶瓷用於空氣過濾器和為個人和商業汽車催化轉換器。雖然大多數步驟生產的這些過濾器是使機器人化,仍有一些人完全手冊。專門為質量檢驗,我們將高分辨率圖像尋找細胞中的違規行為,可預測的泄漏和有缺陷的零件。挑戰,然而,假陽性的流行是由於製造環境中的碎片出現在圖片。
為了解決這個問題,我們之前手動刷和打擊過濾器成像。我們發現通過通知運營商特定部分的清潔,我們可以大大減少所需的總時間的過程,和機器學習方便。我們毫升用來預測一個過濾器是否幹淨或髒基於低分辨率的圖像,而運營商建立成像設備內的過濾器。基於預測,接線員會清潔部分的信號,從而減少誤報最後的高分辨率圖像,幫助我們更快通過生產過程和提供高質量的過濾器。
執行這個毫升模型,我們需要一個二進製為低分辨率的圖像分類器。這裏的關鍵是,它必須是一個低延遲模型,因為它與人類交互運營商在車間裏,誰會被長時間運行沮喪或減慢。在設計模型時,我們隻知道它必須采取毫秒。
這是一個崩潰的我們是如何做到的
數據團隊
我們開始通過構建一個跨職能團隊使用磚與深度學習的方法構建一個低延遲模型。讓我們的數據科學家實驗和從頭構建一個模型,我們首先收集了成千上萬的圖片使用。我們部署了前端應用程序來幫助爭論這些數據和標簽這些圖像,建立數據管道,然後大規模訓練模型。最後,一旦訓練模型,它需要部署在邊緣,所有康寧環保技術世界各地的植物。
建築模型
磚是我們的戰略和轉換的核心,因為它為我們提供了一個簡化的、統一的平台,我們可以集中我們所有的數據和ML的工作。Beplay体育安卓版本我們可以訓練模型,在MLflow注冊它,生成所有額外的工件,比如導出格式,並跟蹤他們在同一個地方,我們生成的基本模型。此外,我們使用AWS數據同步采集圖像從Windows股票在我們的生產設施,然後土地S3存儲桶中,根據不同的項目。有時,如果需要大量的預處理圖像,我們轉換或者轉換應用到圖像,然後將圖像存儲為二進製增量表中的列。使用lakehouse意味著無論是S3上一堆文件,無論是三角洲表中的一列,這一切看起來相同的代碼。的編程模型用於訪問數據是相同的格式。
接下來,我們開始模型API磚的工作與培訓工作。培訓生產模型,我們作為HDF5存儲文件。模型跟蹤MLflow MLflow注冊和注冊表的最新版本。下一步是運行一個評價模型和比較的指標我們得到從模型到目前為止最好的指標。這些模型可以在MLflow標記跟蹤模型的最好的版本。
部署模型
上述步驟後,我們的專家通過MLflow登錄用戶界麵和檢查所有的構件都是由培訓工作產生最好的模型。一旦做了這個評價,專家們前進采取最性能的模型生產,和邊緣係統可以下載該模型使用MLflow API從MLflow注冊表。這個循環是偉大的,因為它對漂移檢測的監管可以重用。
我們最後的部署模型大約有200000參數,它是非常棒,準確率超過90%。
磚的端到端毫升
磚是一個很好的開發環境Python-centric數據科學家和深度學習工程師和對端到端毫升。它使協作環境與整個Python生態係統預裝從Scikit-learn, TensorFlow, PyTorch。集群提供非常快速和有一個偉大的筆記本電腦環境。很容易合作不僅在筆記本還在跨團隊MLflow實驗。
磚的另一個優點,這並不是被低估,它給你個人計算環境對個人數據的科學家。數據科學家可以提供自己的集群節點。管理和集群的分布式特性通過火花,這是一個開源的編程引擎,使我們能夠之上實現有趣的解決方案,提供靈活性和Java或Scala之外的選擇。所有這些並行計算能力非常強大,跨多個節點並行工作負載,可以實現高吞吐量。機上,通過磚磚提供深潛水課程的學院有很多例子和筆記本。
業務影響
使用機器學習數據磚Lakehouse平台,我們的業務經曆了200萬美元的成本避免第一年通過製造Beplay体育安卓版本不安事件減少。部署到所有生產設施在康寧環保技術。我們的項目的成功也幫助我們賺2022年製造業領導委員會獎人工智能和機器學習的行業,讓我們非常自豪。
你可以看詳細的視頻會話的AWS re:發明:
AWS re:發明2022 -康寧如何E2E毫升與磚數據lakehouse平台(PRT321)Beplay体育安卓版本