跳轉到主要內容
公司博客上

火花+人工智能峰會反映

2020年7月15日 公司博客上

分享這篇文章

開發人員出席會議有很高的期望:知識差距會填補什麼;什麼創意或鼓舞人心的想法他們會帶走;為技術問題聯係,期間和之後的會議;是什麼技術趨勢的出現在他們的領域的專業知識;他們偶遇會和培養;將傳遍整個會議的內容和主題。

作為開發者,我們提供了一個開發人員的角度反思火花+人工智能峰會20206月22日至26日舉行,近70 k 125 +國家的注冊者。

作為一個數據的數據工程師團隊的一部分,科學家,架構師和分析師,你要找到問題的核心。讓我們首先考慮主題演講。

技術關鍵提示

設置會議的總體敘事,阿裏•Ghodsi首席執行官兼聯合創始人磚,斷言為什麼,比以往任何時候都更數據團隊必須團結起來。通過引用今天世界麵臨的社會和健康危機,他闡述了數據團隊在組織中如何接受數據+人工智能的概念作為一個團隊的運動能夠聽取一個感人的號召:解鎖數據和機器學習的力量。這個統一的主題回響在產品和開源項目公告,培訓課程和許多會議。

我們開發人員被迷住的技術細節:我們期望看到建築圖,一個底層的一瞥,代碼,筆記本和演示。我們確保所有的技術細節什麼,為什麼如何Lakehouse,一個新的數據範式之上三角洲湖和兼容Apache 3.0火花科學家積累的數據,允許數據工程師和海洋的結構化,半結構化和非結構化數據的大量的用例。所有曆史問題歸因於數據湖泊,Ghodsi所指出的,現在解決這“固執己見”標準為構建可靠的湖泊三角洲。最後,我們得到了一個底層的視圖的三角洲湖如何提供一個事務層進行處理您的數據。

技術主題火花+人工智能2020虛擬峰會Lakehouse範式:一個平台為數據倉庫和數據的科學。Beplay体育安卓版本

增加了討論Lakehouse堆技術如何幫助團隊解決艱難的數據問題,雷諾鑫,首席架構師兼聯合創始人磚,發表了深潛水的新組件達美航空發動機。基於Apache 3.0火花和兼容的api,三角洲引擎提供開發人員在磚平台上“大規模性能”當使用DataFrame api和SQL工作負載在三個主要方麵:Beplay体育安卓版本

  1. 擴展了基於成本的查詢優化器和自適應查詢執行先進的統計數據
  2. 添加一個本地矢量化執行引擎用c++寫的稱為光子
  3. 實現緩存機製高i / o吞吐量三角洲湖存儲層

盡管沒有開發人員api存在這個引擎,它提供了底層的加速引發磚上運行的工作負載。然而,對於開發人員使用SQL,火花DataFrames或者考拉磚,這是好消息。光子是一個本機執行引擎專用性能;它利用數據級和CPU instructions-level並行性,利用現代的硬件。用c++編寫的,它優化現代主要工作負載組成字符串處理和正則表達式。

基於Apache 3.0火花,磚三角洲引擎提供的開發人員在使用時“大規模性能”DataFrame api和SQL工作負載。

類似的技術格式,通過最初的創造者之一的鏡頭Apache的火花,馬泰Zaharia,我們通過十年的Apache火花。Zaharia解釋火花與每個版本改進——從早期的用戶和開發者加入反饋;采用新用例和工作負載,如加速R和SQL交互流的查詢和增量數據集更新;擴大與編程語言火花,機器學習庫,和高層,結構化的api,總是開發者的需求麵前,中心引發的易於使用的api。

介紹Apache火花3.0和10年期火花回顧了2020年引發+人工智能虛擬峰會

Zaharia相關開發人員的關鍵外賣Apache 3.0火花包括:

一個凸觀察Zaharia指出:68%的命令磚筆記本是在Python中,18%是在SQL開發人員問題,與Scala落後11%。這個觀察是擬合與火花Python 3.0的強調火花SQL和增強。

68%的磚上筆記本命令是在Python編程語言
大於90%的火花API調用運行通過火花,突顯Apache的強調引發火花3.0 SQL和Python的增強明顯。

這些不僅僅是一連串的幻燈片;我們看到的代碼,把請求,加亮,筆記本,實實在在的代碼與性能改進、演示等。

更好的是,您可以3.0下載火花,得到一個免費的副本“學習火花,第二版”,今天,開始使用最新的特性!

數據可視化講述一個故事。Redash加入磚帶來了一套新的數據可視化功能。精通SQL數據分析師比Python,它提供探索的能力,查詢、可視化指示板,並分享來自多個數據源的數據,包括三角洲湖泊。你可以看到如何增強與Redash數據可視化

作為一個開源項目,與300多名貢獻者和7000年部署,Redash收購重申磚的開源開發者社區的承諾。

最後,兩個主題演講完成敘述使用流行的數據團隊的軟件開發工具。首先,克萊門斯Mewald和勞倫·裏奇走我們通過數據科學家如何使用新引入的磚新一代數據科學的工作區可以通過一個新的概念——項beplay娱乐ios目中合作——使用他們喜歡的Git存儲庫。

下一代數據科學概論工作區上火花+人工智能2020虛擬峰會
下一代數據科學概論工作區上火花+人工智能2020虛擬峰會

四個簡單步驟允許您創建一個項目的一部分,你的磚工作區:

  1. 創建一個新項目
  2. 克隆大師Git存儲庫和合作創建一個分支
  3. 打開一個Jupyter筆記本,如果一個存儲庫中存在,在磚筆記本的編輯器
  4. 開始編碼和數據中與開發商合作團隊
  5. 拉,承諾,推動您的代碼

沒多大區別Git工作流在你的筆記本電腦,這個協作過程現在是私人預覽數據磚的工作區中可用,一個可擴展的集群上,給你Lakehoubeplay娱乐iosse訪問數據的能力和配置一個項目範圍Conda環境(即將到來的)如果需要為您的項目。

第二,這最後一點完成敘事的數據團隊如何與新功能MLflow機器學習Beplay体育安卓版本的平台,一個完整的生命周期。提出的馬泰Zaharia安和蘇在香港,外賣的關鍵開發人員:

  • MLflow狀態的項目和社區,新功能的未來
  • 磚MLflow有助於Linux基金會項目,擴大其範圍和預期貢獻更大的機器學習的開發者社區
  • MLflow磚上宣布容易模型服務
  • MLflow 1.9版本介紹強治理模型,實驗autologging能力一些毫升的庫,並可插入部署api

總之,這些公告從開發人員的鏡頭負擔我們的新趨勢和模式在大數據和人工智能空間;他們提供了新的工具、api和深入了解數據團隊可以一起解決困難的問題。

聚會,什麼問題都可以問

讓我們把目光轉向公共開發活動。早期的會議以來,一直是一個開球聚會冰冷的啤酒和科技戲謔。年底聚會,興奮的空氣和場地是顯而易見的——所有的渴望接下來幾天的主旨演講和分離。實際上這一次,我們舉辦了聚會。和熱情是顯而易見的——在出席並通過通過虛擬互動問答麵板。

像聚會一樣,問我任何東西(AMA)會議在會議上普遍存在。成為一個開放的論壇,來自世界各地的開發人員要求過濾問題提交者,貢獻者,從業者和主題專家小組。我們舉辦了超過半打ama,包括以下幾點:

  • 四個三角洲湖ama
  • MLflow AMA
  • Apache 3.0和火花考拉AMA
  • AMA與馬泰Zaharia
  • AMA內特銀

培訓、教程和跟蹤

接下來,珠寶在知識的綠洲。迎合一係列開發人員角色——數據科學家,工程師,數據的SQL分析師,平台管理員,和商業領袖——磚學院進行帶薪培訓兩天,Beplay体育安卓版本半天重複會議。同樣豐富的技術深度是不同的分離會話、深潛水和教程在跟蹤和主題旨在所有技能水平:初級,中級和高級。

這些課程知識的跳動的心跳,我們喜歡聽到當我們參加會議。他們正是推動我們去旅行土地和穿越海洋。隻是這段時間,你可以從你的客廳,沒有丟失會話的恐慌或跑過走廊和建築物進入下一個會話。一位與會者指出,這個虛擬會議技術內容和參與設定了一個很高的標準。她參加未來的虛擬會議。

贓物,政黨和友情

你不能有美味咖喱沒有馬沙拉,你能嗎?自然,垂下的關鍵會議材料,政黨和友情一樣重要的技術會議。必須有t恤和好吃的!但是這一次,你沒有把你背包裏的東西。相反,你可以在網上商店峰會商店,救贖你的峰會分(累計參加許多活動,包括虛擬各種遊戲和活動的兩個晚上),和你的贓物運往你——一些限製申請一些全球目的地。

整個五天,你可以selfies和分享在社交媒體上,互動,並在全球建立新聯係社區在虛擬平台上,並安排一個約會DevHub問技術問題,稍後跟進。Beplay体育安卓版本

作為一名開發人員提倡,從我們最初的預期,他們遇到了毋庸置疑。如果不是因為獨特的火花+ # datateam AI峰會組委會統一,這個虛擬事件是不可能的。如此巨大的榮譽,和全球社區向他們致敬!

接下來是什麼

好吧,如果你錯過了一些會議,都是在線現在熟讀。幾個最喜歡的選擇包括:

O ' reilly學習引發的書

3.0免費第二版包括更新火花,包括熊貓udf的新的Python類型提示,新的日期/時間實現等。

免費試著磚
看到所有公司博客上的帖子
Baidu
map