實現更有效的公平與Lakehouse科學數據管理
2021年9月7日 在Beplay体育安卓版本平台的博客
Lakehouse讀取的數據探索為什麼lakehouses未來的數據架構和數據倉庫的父親,Bill Inmon。
數據權力的科學發現和創新。但數據隻是一樣好它的數據管理策略,確保數據質量的關鍵因素,可訪問性和再現性的結果——所有的需求的可靠的科學證據。
大型數據集變得越來越重要和訪問科學家跨學科,大數據的問題在過去的十年裏,不守規矩的,野性,不受控製,unreproducible數據工作流——變得越來越有關科學組織。
這導致了行業專家開發的框架“數據管理和管理好,”最初在2016年的一篇文章中介紹自然,“有價值的數字資產的長期護理”的核心。這些原則,現在廣為人知公平由四個主要原則:可尋性、可訪問性、互操作性、和數字資產的重用。通過其框架,公平有助於解決這些問題通過強調machine-actionability和計算係統的能力,訪問、互操作和重用數據沒有或很少人工幹預。
幾乎每一個科學工作流——從執行詳細的數據質量控製高級分析——依賴於新創統計方法來解決一個特定問題。因此任何數據架構設計來解決好數據治理也應該支持開發和應用先進的數據分析工具。這些特征本質上是有限的遺留兩層數據架構和不支持現代數據和先進的分析用例。這就是lakehouse架構能幫上忙。
在過去的幾年裏,lakehouse範式,結合數據倉庫和數據的好處湖泊到一個新的數據平台架構,各個行業變得越來越普遍。Beplay体育安卓版本作為企業級數據架構的下一代,lakehouse已被證明是一個通用的結構能夠支持傳統的用例分析和機器學習。這種多功能性是關鍵三角洲湖湖,一個開源數據管理層對你的數據,提供了倉儲式一致性和事務性的規模、靈活性和節約成本的數據。
在這篇文章中,我們將仔細看看如何lakehouse之上的三角洲湖使公平數據係統架構在組織追求科學研究。
雖然他們的價值是明顯的,這樣的目標有給定數據團隊適合多年。例如,數據湖;沒有一個係統的一部分比數據更容易湖,但它帶來了巨大的希望世界數據的組織,同時也創造了巨大的混亂。雲,所有的好處,使得這一挑戰更加困難:存儲成本暴跌,但它便於隨時隨地的數據訪問等於數據擴散。這種增長的壓力,如公平通常剩餘崇高的管理原則。
不可避免的是,一個不受控製的缺點雲後他們的頭——成本發生了爆炸,利用率下降和風險變得站不住腳由於缺乏治理。這個戒指特別是在科學的世界中,不確定性和變化出現在每一個細胞,主題和審判。為什麼引入更多未知的新數據平台,當筆記本電腦工作非常好嗎?Beplay体育安卓版本在這種情況下,數據混亂的敵人是創新,和公平的目標是使一個組織一個可再生的過程。所以,真正的問題:“我怎麼實施公平嗎?”
幸運的是,最近的事態發展在雲架構讓這個問題比以往任何時候都更容易回答。具體地說,讓我們看看lakehouse之上的三角洲湖地址的每一個公平的指導原則。
可尋性:用戶如何在自動找到數據,可重複的方式嗎?
數據的第一個障礙是“脫穎而出”的任何試驗,管道或過程。它也是數據擴散的主要受害者之一。pb的數據跨幾十個斷開係統一知半解,甚至如何最精明的用戶(更不用說可憐的靈魂缺少經驗的公司的部落知識)可能導航數據景觀呢?將不同的數據從多個係統到一個位置數據的核心原則湖。lakehouse擴大這個概念進一步通過構建公平之上的其他原則,但不變的核心思想:如果做得好,統一的數據在一個層使得其他體係結構決策變得更加容易。
公平的標準可尋性分為幾個分項:
- F1(元):數據分配全球獨特的和持久的標識符。
- F2:數據與豐富的元數據描述。
- F3:元數據清晰而明確地包括數據的標識符描述。
- F4(元):注冊數據或索引搜索資源。
每一個點和一個Delta-based lakehouse。例如,三角洲湖、元數據包括標準的信息,比如模式,以及版本控製模式演化在時間和基於用戶的血統。也從未有任何含糊不清的任意元數據描述的數據,由於數據和元數據是共存的,作為一個最佳實踐,lakehouse包括一個中央,high-accessible metastore提供簡單的功能。所有這些導致highly-findable lakehouse範式中的數據。
作為一個例子如何lakehouse使數據可尋性,考慮以下:
這裏,我們從許多係統攝取,成像係統,on-prem和雲數據倉庫,電子健康記錄(EHR)係統,等等。不管來源,它們存入“青銅”層內底層數據,然後自動美聯儲通過細化過程,可能包括de-identification,標準化和過濾。最後,數據存入一個“黃金”層,該頁麵隻包含高質量的數據;用戶(或自動提要)隻需要在一個地方找到最新版本的可用數據。甚至數據科學或毫升流程可能需要少精數據可以利用銀或銅層;這些過程知道數據所在,每一層都包含什麼。我們會看到,這使得其他公平原則更容易實施和跟蹤。
可訪問性:用戶如何訪問數據一旦被發現?
根據公平原則,數據訪問”可收回…使用一個標準化的通信協議”和“可即使是不再可用的數據湖”。傳統上,這就是數據模型將開始分解;幾乎可以確定的是,一個數據湖有任意數量的模式,文件數據的類型和格式和版本。雖然這使得“脫穎而出”的簡單,這形成了一個可訪問性的噩夢;更多,湖裏有一天可以改變,移動或完全消失。這是數據的主要缺點之一湖,lakehouse開始有分歧的地方。
經過良好設計lakehouse需要一層促進底層數據之間的可訪問性在湖和消費者;今天有幾個工具,提供這樣一個層,但是使用最廣泛三角洲湖。三角洲帶來大量的好處(ACID事務,統一批/流,雲優化性能,等等),但是兩個特別重要的相對公平。首先,由三角洲湖是一個開源格式Linux基金會,這意味著它是一個標準化的、非專有和固有的多重雲協議。無論供應商(s),總是會寫在三角洲公開的數據訪問。第二,三角洲提供了事務日誌,從數據本身是不同的;這個日誌允許等操作版本控製再現性,這是必不可少的,也意味著即使數據本身被刪除,元數據(在許多情況下,適當的版本,甚至數據)可以恢複。這是一種必不可少的可訪問性公平的宗旨——如果無法保證穩定性隨著時間的推移,數據可能不存在。
為例,說明三角洲湖支持可訪問性,考慮以下場景,在該場景中,我們開始與患者信息表,添加一些新的數據,然後不小心讓一些無意的變化。
因為δ持續我們的元數據和日誌的變化,以前我們能夠訪問狀態甚至數據意外——這適用於即使整個表中刪除被刪除!這是一個簡單的例子,但應該給的味道lakehouse之上三角洲湖可以帶來穩定和可訪問性的數據。這是特別有價值的再現性是必不可少的任何組織。三角洲湖可以減輕負載數據團隊同時允許科學家自由創新和探索。
最後,三角洲湖三角洲分享一個開放的協議,保證數據共享。這使它簡單的科研人員分享研究數據直接與其他研究人員和組織,無論他們使用的計算平台,在一個易於管理和開放格式。Beplay体育安卓版本
互操作性:數據係統集成怎麼樣?
今天沒有短缺的數據格式。一旦熟悉的CSV格式和Excel電子表格提供了我們所需要的所有功能,但是今天有成千上萬的特定於域的醫療格式,從BAM和山姆HL7。當然,這是之前等非結構化數據DICOM圖像、Apache拚花等大數據標準和真正的無限數量的特定於供應商的專用格式。把所有這一切放在一起在數據的湖,雞尾酒,您已經創建了一個真正可怕的數據。一個有效的可互操作的係統,符合公平原則,必須在每一個機器可讀的格式,這是美聯儲——一個壯舉,充其量是困難的,在最壞的情況下,不可能的,當涉及到巨大的各種各樣的HLS中使用的數據格式。
在lakehouse範式中,使用三角洲湖我們解決這個問題。我們第一次土地在其原始格式的數據,保持原樣複製的曆史和數據挖掘的目的;然後,我們將所有數據增量格式,這意味著下遊係統隻需要了解一個格式功能。
此外,lakehouse促進一個單一的、集中的元數據目錄;這意味著無論在哪兒舉行或原始和轉換數據存儲,如何有一個參考點來訪問和使用它。此外,這意味著有一個單點控製敏感φ或與hipaa兼容的數據,提高數據流的治理和控製。
一個常見的問題是如何轉換所有這些不同的格式;畢竟,盡管下遊係統必須理解三角洲,的東西在上遊lakehouse必須了解數據。在磚,我們與業內專家和合作夥伴合作,創建解決方案,處理一些最常見的格式。其中的幾個例子在衛生保健和生命科學包括:
- 發光聯合磚和Regeneron遺傳中心之間的合作,使攝入和處理常見的基因組學格式可伸縮的和容易,,旨在使它容易整合基因組學工作流在更廣泛的數據和人工生態係統。
- 悶燒是一個可伸縮、Spark-based框架攝入和HL7數據的處理;它提供了一個易於使用的接口,通常是一個困難的和可變的格式。它提供了本地讀者和插件,以便使用HL7數據一樣容易消耗一個CSV文件。
可重用性:數據如何在多個場景中重用?
可重用性是一個變化無常的話題;甚至公司已經建立在lakehouse架構容易錯過這個支柱。這主要是因為可重用性不僅僅是一個技術問題,它的核心業務,並迫使我們問困難的問題。業務都是如此嗎?有較強的跨部門協作和團隊合作的文化嗎?做研發的領導人知道數據被用於生產,反之亦然?強烈lakehouse不能回答這些問題或可能構成他們解決結構性問題,但它能提供一個堅實的基礎。
大部分lakehouse派生的價值不是從攝取的能力,存儲、版本或幹淨的數據——相反,它來自能力提供一個集中的平台,所有數據,不管用例,可以處理,訪問和理解。Beplay体育安卓版本底層部分——數據湖,湖,δ引擎和目錄,所有服務,使這些用例。沒有強大的用例,沒有數據平台,無論多麼良好,會帶來價值。Beplay体育安卓版本
我們不可能覆蓋每一個數據的用例,但是希望這個博客給了簡要概述的磚允許更有效的科學數據管理和社區標準。作為底漆lakehouse一些解決方案我們已經看到,這裏有一些資源: