在過去的幾年中,您可能聽說過有人在某個地方使用“數據湖”一詞。隨著數據量呈指數級增長,流數據起飛,非結構化數據繼續(xù)使其結構化的同類相形見絀,這一概念越來越受到關注。
什么是數據湖?它與傳統(tǒng)數據倉庫有何不同?AAA教育小編簡單分析一下大數據分析數據湖與數據倉庫的區(qū)別與聯系
一、傳統(tǒng)數據倉庫是什么
奇怪的是,在您職業(yè)生涯的某個時候,您遇到了數據倉庫,該工具已成為提取,轉換和加載(ETL)流程的代名詞。在較高級別上,數據倉庫以高度規(guī)范的方式存儲大量結構化數據。他們需要一個剛性的,預定義模式加載數據之前就存在。(幾乎總是星型或雪花型模式。)換句話說,數據倉庫中的模式是“寫時”定義的。ETL流程應盡其所能踢出錯誤報告,生成日志,并將錯誤的記錄發(fā)送到要處理的異常文件和excel表中。在以后的日子。
由于這種剛性及其工作方式,數據倉庫支持部分或增量ETL。換句話說(根據問題的嚴重性),組織可以在出現問題時加載或重新加載其數據倉庫的某些部分。
組織通常會定期填充數據倉庫。一般而言,數據會定期更新(例如,每天早上3點,當員工不太可能訪問數據和下游系統(tǒng)時)。員工第二天使用最新壓縮的數據上班。
可以肯定的是,存儲在傳統(tǒng)數據倉庫中的數據在今天仍然有價值。盡管如此,組織及其領導者仍需要開始重新考慮當代數據集成??紤]一下物聯網及其實現的分析。車輛,農用設備,可穿戴設備,恒溫器甚至農作物上的傳感器會產生大量連續(xù)流的數據。最好的選擇是,即使是具有行業(yè)實力的數據倉庫也將面臨這些新數據流的困擾。
二、數據湖的崛起
在這種背景下,我們已經看到了數據湖的流行性上升。沒錯:它不是數據倉庫或數據集市的同義詞。是的,所有這些實體都存儲數據,但是數據湖在以下方面根本不同。數據湖的想法是為原始數據提供原始數據的休息場所,直到需要它為止。數據處于休眠狀態(tài),除非并且直到有人或某物需要它。
在訪問數據湖時,用戶確定:
他們需要的特定數據類型和來源。
他們需要多少。
當他們需要它時。
他們需要派生的分析類型。
所有這些都可能在數據倉庫中嗎?可能不是。而且即使有可能,也不太可能在業(yè)務用戶認為可以接受的時間內實現這些目標-尤其是在當今瞬息萬變的環(huán)境中。除此之外,幾乎可以肯定一個特定的架構不能滿足所有業(yè)務需求。最終,數據可能最終以某種方式到達,使其實際上對于員工的發(fā)展目的毫無用處。
因此,數據湖架構被定義為“讀取時”。換句話說,數據湖仍需要一個架構。但是,該架構不是預定義的。這是臨時的。當用戶將數據從存儲位置中拉出時,數據將應用到計劃或方案中-而不是隨其進入。數據湖將數據保持在其未更改(自然)狀態(tài);除非并且直到用戶查詢數據,它才定義需求。
如果使用正確,數據湖將為業(yè)務和技術用戶提供查詢更小,更相關和更靈活的數據集的能力。結果,查詢時間可以減少到數據集市,數據倉庫或關系數據庫中的時間的一小部分。
1、數據湖的靈活性提高
數據湖強調數據的靈活性和可用性。這樣,它可以為用戶和下游應用程序提供無模式的數據。也就是說,無論其來源如何,都類似于其“自然”或原始格式的數據。
盡管評審團還沒有成立,但許多(如果不是大多數)數據湖應用程序不支持部分或增量加載。(通過這種方式,數據湖不同于數據倉庫。)組織無法將其部分數據加載或重新加載到數據湖中。它往往是全部或全部。
2、數據湖類比
如果您仍在努力處理數據湖的概念,那么下面的類比可能會澄清問題??梢詫祿谢驍祿}庫看作是裝滿瓶裝水的存儲設施。這些案件并不僅僅是一夜之間神奇地出現。人和機器收集并凈化了水。包裝后,才可以供人們購買和飲用。
相比之下,可以將數據湖視為大量天然水,只有在渴死時才可以喝。如果您需要50加侖的水滅火,則無需購買瓶裝水并將它們逐一倒空。一切都準備就緒。
按照這種類比,數據湖中的“水”來自許多地方:河流,支流和瀑布。也就是說,數據湖不只容納一種水(即數據)。數據湖可以容納所有類型的數據:結構化,半結構化和非結構化。但是請注意,用結構化數據填充數據湖意味著它至少會丟失其某些結構,并且-您猜到了-其某些價值。為此,如果你只是對結構化數據感興趣,數據倉庫可能仍然是你最好的選擇。
在我看來,毫無疑問,數據湖將在未來的數據管理中占據越來越重要的位置。
1、關于數據湖的兩種思想流派
因為數據湖現在還處于早期階段,今天的數據湖泊的意見是什么,在較高的層次上,有兩種思想流派。一組視圖中的數據湖為不僅是重要的,而且還必須為數據驅動的公司。該小組了解現代數據倉庫的局限性-原則上講,它們并不是為處理大量非結構化數據流而構建的。此外,“寫時”和“讀時”之間的區(qū)別不僅僅是語義上的問題。相反,后者使響應時間大大加快,并且擴展了分析能力。
這是一種觀點,我碰巧同意這一觀點。公平地說,我們在這里還沒有達成行業(yè)共識–距離它還很遠。數據湖的懷疑論者并不害羞。憤世嫉俗的人把數據湖看成是流行語,或者是在游戲中占有重要地位的軟件供應商的炒作。此外,有些人認為數據湖是舊概念的新名稱,但對企業(yè)的適用性有限。
除了圍繞該主題的合理混亂外,很少有人以一致的方式使用“數據湖”一詞。有些人稱任何數據準備,存儲或發(fā)現環(huán)境為數據湖。
2、與Hadoop和關系數據庫并行
在概念化對數據湖的需求時,也許最好考慮一下Hadoop –越來越多的組織正在采用的開源,分布式文件系統(tǒng)。Hadoop成長的原因很多,其中最重要的一點是它滿足了關系數據庫管理系統(tǒng)(RDBMS)無法滿足的真正需求。公平地講,它的開源性質,容錯能力和并行處理也位居榜首。
RDBMS根本不是設計來處理千兆字節(jié)或PB級的非結構化數據。嘗試將數千張照片,視頻,推文,文章和電子郵件加載到傳統(tǒng)的SQL Server或Oracle數據庫中,并運行報告或編寫SQL語句。祝你好運。
幾十年來,數據倉庫甚至可以很好地處理大量結構化數據:員工列表,銷售,交易等。他們提供了無數的商業(yè)智能和企業(yè)報告應用程序。但是,期望那些相同的數據倉庫有效地處理根本不同的數據量,速度和類型是不合理的。
3、關于元數據的注釋
數據湖依賴于本體和元數據來從加載到它們中的數據中獲取意義。同樣,方法也有所不同。但是一般來說,湖泊中的每個數據元素都繼承一個唯一的標識符,該標識符分配有大量的元數據(標簽)。結論:數據湖將繼續(xù)存在。
4、數據湖的光明前景
在我看來,毫無疑問,數據湖將在未來的數據管理中占據越來越重要的位置。組織將繼續(xù)將“小”數據與其大數據集成在一起,愚蠢的是他們相信一個應用程序(無論多么昂貴或強大)都能處理所有事情。
當出現業(yè)務問題時,用戶將比傳統(tǒng)的數據存儲和報告支持者所能提供的更快地更快地需要答案。如果使用得當,數據湖可讓用戶分析較小的數據集并快速回答關鍵問題。
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動者數字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc