不要錯過這些十大公告從數據+人工智能峰會
的2021年數據+人工智能峰會充滿了很多令人興奮的宣布開源和磚,談判從頂級創造者整個行業(如顧磊傑(Rajat《艋舺》的共同創造者TensorFlow)和嘉賓名人像比爾奈,馬拉拉Yousafzai和美國宇航局的火星漫遊者的團隊。你可以觀看主題演講,聚會和按需的數以百計的會談峰會平台Beplay体育安卓版本,這是可以通過6月28日,需要免費注冊。
在這篇文章中,我想介紹我的個人排名前十的公告在開源和磚峰會。他們在會談沒有特定的順序和鏈接去峰會平台。Beplay体育安卓版本
三角洲湖1.0
三角洲湖開源項目是一個關鍵的推動者lakehouse,因為它修複湖泊的許多限製數據:數據質量、性能和治理。該項目首次發布以來已經走過了漫長的道路,和三角洲湖1.0版本隻是認證的社區。釋放代表各種各樣的新特性,包括生成的列和雲獨立多集群和我最喜歡的——三角洲湖獨立寫道,從三角洲表讀取但不需要Apache火花TM。
我們還宣布了一堆新提交者三角洲湖項目,包括侯QP, R。泰勒突堤,基督教威廉姆斯正式Osypov Florian Valeye。
了解更多關於三角洲湖1.0在主題演講從共同創造者和傑出工程師邁克爾。
三角洲分享
開放不僅僅是開源——它是關於訪問和共享。數據是每一個成功組織的命脈,但它還必須能夠順利組織之間流動。數據共享的解決方案在曆史上被綁定到一個商業產品,引入供應商鎖定風險和數據倉庫。磚聯合創始人兼首席執行官阿裏Ghodsi宣布三角洲分享,該行業的第一個開放協議安全的數據共享。它支持SQL和Python數據科學,加上容易管理、隱私、安全和遵從性。這將是三角洲湖項目的一部分在Linux基金會。
我們已經看到巨大的支持項目,超過1000數據集可以通過AWS數據交換,FactSet,標普全球、納斯達克和更多。此外,微軟,穀歌,畫麵和許多其他人都致力於支持三角洲分享添加到他們的產品。
了解更多關於三角洲分享來自Apache火花和MLflow馬泰Zaharia創造者主題演講。你也可以從畫麵看一個會話如何獲得3和δ分享好處嗎。
三角洲生活表
ETL或英語教學是其中最關鍵的數據工作負載,因為數據質量影響到所有下遊工作負載。這通常被表示為一個整潔的數據流從混亂的輸入數據到清潔,新鮮的、可靠的數據符合要求的用例。現實並非如此簡單-數據管道是脆弱的和花費很多時間。
三角洲生活表在峰會上宣布提供自動、可靠ETL三角洲湖上很容易。它處理自動測試、管理、監控和恢複以及實時更新你的數據管道。最重要的是,你可以這樣做隻有SQL(盡管Python還支持高級分析和AI)。
了解更多關於三角洲生活與傑出工程師邁克爾Armbrust表主題演講。你也可以觀看深入會話使ETL三角洲湖上簡單可靠從產品管理副總裁Awez賽義德。
提前釋放:三角洲湖O ' reilly明確的指導
我尊敬的同事丹尼Lee Vini賈斯瓦爾和如來佛Das努力寫一本新書探索如何構建現代數據lakehouse架構三角洲湖。邁克爾時常要在主旨演講中宣布,我們已經與O ' reilly的免費提前釋放。今天下載,我們一定會讓你知道當最終版本發布!
統一目錄
公司正在收集大量的數據在數據湖泊在雲中,而這些湖泊保持增長。是很難維持治理在一個雲,更不用說多重雲環境,許多企業使用。的統一目錄是該行業的第一lakehouse統一目錄,使用戶能夠在所有雲標準化一個細粒度的解決方案。您可以使用ANSI SQL訪問控製表、字段、視圖、模型——而不是文件。它還提供了一個審計日誌,使它容易理解什麼是誰訪問所有數據。
學習更多的首席技術專家馬泰Zahari開幕式主題,報名參加候補名單獲得統一目錄。
磚SQL:提高性能、管理和分析師的經驗
我們想提供最高效、最簡單和最強大的SQL平台在一個開放的方式。Beplay体育安卓版本SQL數據lakehouse視覺的一個重要組成部分,我們一直專注於改進SQL在現實世界的應用程序的性能和可用性。
去年,我們談論如何磚,由三角洲湖和光子引擎,表現好於數據倉庫TPC-DS價格/性能比較30結核病工作負載。首席架構師峰會,雷諾新磚,宣布了一項更新性能優化工作,關注並發查詢10 gb TPC-DS工作負載。現在使超過100種不同的優化後,磚SQL優於流行的小型雲數據倉庫查詢大量的並發用戶。
了解更多的改善磚SQL和光子引擎從雷諾鑫,首席架構師在磚和曆史因素的Apache火花。一定要請繼續關注磚首席執行官阿裏Ghodsi和Bill Inmon,討論數據倉庫的“父親”。
你也可以觀察深入會話從光子的科技領先和產品經理團隊。
Lakehouse勢頭
動量在lakehouse采用磚CEO阿裏Ghodsi開放討論的主題是代表重大工程的進步,全球正在簡化數據的工作團隊。
不再做這些公司需要兩層數據架構與湖泊和(有時是多個)數據倉庫。采用數據lakehouse,他們現在可以有性能、可靠性和合規功能在數據倉庫中典型的可伸縮性和支持非結構化數據中發現數據湖泊。
Rohan Dhupelia開幕式主題談論如何加入lakehouse轉換在Atlassian和簡化數據的工作團隊。
阿裏邀請Bill Inmon,數據倉庫的“父親”,談論到虛擬階段轉換他看到在過去的幾十年裏。比爾說:“如果你不把你的數據到lakehouse湖,然後你把它變成一個沼澤”,強調lakehouse解鎖的數據和現在的機會我們從未見過的。
聽到第一手從阿裏,羅翰和比爾開幕式主題lakehouse數據架構、數據工程和分析。請繼續關注Bill Inmon即將lakehouse,讀他的書數據博客了解lakehouse進化。
考拉被合並到Apache的火花
最重要的圖書館數據科學是熊貓。為了更好地支持數據科學家從單節點“筆記本電腦數據科學”高度可伸縮集群,我們兩年前啟動了考拉項目。考拉是熊貓api的實現,優化集群環境中啟用大型數據集。
我們現在看到每個月超過300萬PyPI下載的考拉——改變大規模數據科學家的工作方式。雷諾鑫,曆史最高貢獻者Apache火花,宣布我們決定捐贈考拉上遊到Apache火花項目。現在,當你寫代碼為Apache火花,讓你可以寬慰的是熊貓api將提供給你。
這些項目的合並也引發用戶的附帶好處——高效的繪圖技術在熊貓api火花自動確定最好的方法繪製數據而不需要手動將采樣。
了解更多關於考拉的合並主題演講和演示從雷諾鑫和布魯克身上。你也可以看做事投入到考拉項目工程團隊,包括基準和比較其他大熊貓縮放的努力。
機器學習儀表板
產品管理總監克萊門斯Mewald宣布一些新磚的機器學習功能的改善。
這些改進尋求簡化整個機器學習生命周期——從數據模型部署(來回)。我們這樣做的方法之一是通過提供新磚工作區中的persona-based導航——提供一個毫升儀表板彙集數據,模型、特色商店和實驗跟蹤下一個界麵。
學習更多的克萊門斯火花,數據科學,和機器學習主題看得老產品經理Uhlenhuth演示。他們也有一個深入的會話他們深入這些公告的詳細信息。
機器學習功能存儲
的磚特性的商店是第一個協同設計和數據MLOpsBeplay体育安卓版本平台。
一個特征是什麼?特征輸入到機器學習模型,包括轉換、上下文、功能增強和預先計算屬性。
存儲功能的存在,讓它更容易實現一個功能,使用它在訓練和低延遲生產服務,防止在線/離線傾斜。磚特性存儲包括注冊表功能促進功能的可發現性和重用性,包括跟蹤數據的來源。它也集成到MLflow,使功能版本用於訓練一個特定版本的模型自動用於生產服務,無需手動配置。
磚特性存儲中的數據存儲在一個開放的格式——三角洲湖表,所以他們可以從客戶在Python中,訪問SQL和更多。
學習更多的克萊門斯火花,數據科學和機器學習主題看得老產品經理Uhlenhuth演示。他們也有一個深入的會話他們深入這些公告的詳細信息。
筆記本AutoML與可再生的審判
磚AutoML是一個獨特的玻璃盒子AutoML方法使數據團隊沒有拿走控製。它生成一個基線模型能快速驗證機器學習項目的可行性和指導項目的方向。
許多其他AutoML解決方案為市民設計數據科學家碰壁如果自動生成的模型不工作——它沒有提供所需的控製優化。
磚AutoML增強數據科學家,使他們能夠看到引擎蓋下麵到底發生了些什麼,提供為每個審判運行在單獨的源代碼,修改的Python筆記本。透明的玻璃盒子方法意味著沒有必要花時間逆向工程一個不透明的自動生成的模型來優化基於你的專業技能。它還支持法規遵循通過展示如何一個模型的能力是訓練。
與MLflow AutoML緊密集成,跟蹤所有的參數、指標,工件和模型與每一個試驗。得到更多的細節深入的會話。
了解更多
您可能已經注意到在這篇文章中我覆蓋11個公告。它實際上是隻有10,但一個從零開始的索引。對不起,有這麼多分享!