在過去的幾年中,您可能聽說過有人在某個地方使用“數(shù)據(jù)湖”一詞。隨著數(shù)據(jù)量呈指數(shù)級增長,流數(shù)據(jù)起飛,非結(jié)構(gòu)化數(shù)據(jù)繼續(xù)使其結(jié)構(gòu)化的同類相形見絀,這一概念越來越受到關(guān)注。
什么是數(shù)據(jù)湖?它與傳統(tǒng)數(shù)據(jù)倉庫有何不同?AAA教育小編簡單分析一下大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系
一、傳統(tǒng)數(shù)據(jù)倉庫是什么
奇怪的是,在您職業(yè)生涯的某個時候,您遇到了數(shù)據(jù)倉庫,該工具已成為提取,轉(zhuǎn)換和加載(ETL)流程的代名詞。在較高級別上,數(shù)據(jù)倉庫以高度規(guī)范的方式存儲大量結(jié)構(gòu)化數(shù)據(jù)。他們需要一個剛性的,預(yù)定義模式加載數(shù)據(jù)之前就存在。(幾乎總是星型或雪花型模式。)換句話說,數(shù)據(jù)倉庫中的模式是“寫時”定義的。ETL流程應(yīng)盡其所能踢出錯誤報告,生成日志,并將錯誤的記錄發(fā)送到要處理的異常文件和excel表中。在以后的日子。
由于這種剛性及其工作方式,數(shù)據(jù)倉庫支持部分或增量ETL。換句話說(根據(jù)問題的嚴(yán)重性),組織可以在出現(xiàn)問題時加載或重新加載其數(shù)據(jù)倉庫的某些部分。
組織通常會定期填充數(shù)據(jù)倉庫。一般而言,數(shù)據(jù)會定期更新(例如,每天早上3點(diǎn),當(dāng)員工不太可能訪問數(shù)據(jù)和下游系統(tǒng)時)。員工第二天使用最新壓縮的數(shù)據(jù)上班。
可以肯定的是,存儲在傳統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)在今天仍然有價值。盡管如此,組織及其領(lǐng)導(dǎo)者仍需要開始重新考慮當(dāng)代數(shù)據(jù)集成??紤]一下物聯(lián)網(wǎng)及其實(shí)現(xiàn)的分析。車輛,農(nóng)用設(shè)備,可穿戴設(shè)備,恒溫器甚至農(nóng)作物上的傳感器會產(chǎn)生大量連續(xù)流的數(shù)據(jù)。最好的選擇是,即使是具有行業(yè)實(shí)力的數(shù)據(jù)倉庫也將面臨這些新數(shù)據(jù)流的困擾。
二、數(shù)據(jù)湖的崛起
在這種背景下,我們已經(jīng)看到了數(shù)據(jù)湖的流行性上升。沒錯:它不是數(shù)據(jù)倉庫或數(shù)據(jù)集市的同義詞。是的,所有這些實(shí)體都存儲數(shù)據(jù),但是數(shù)據(jù)湖在以下方面根本不同。數(shù)據(jù)湖的想法是為原始數(shù)據(jù)提供原始數(shù)據(jù)的休息場所,直到需要它為止。數(shù)據(jù)處于休眠狀態(tài),除非并且直到有人或某物需要它。
在訪問數(shù)據(jù)湖時,用戶確定:
他們需要的特定數(shù)據(jù)類型和來源。
他們需要多少。
當(dāng)他們需要它時。
他們需要派生的分析類型。
所有這些都可能在數(shù)據(jù)倉庫中嗎?可能不是。而且即使有可能,也不太可能在業(yè)務(wù)用戶認(rèn)為可以接受的時間內(nèi)實(shí)現(xiàn)這些目標(biāo)-尤其是在當(dāng)今瞬息萬變的環(huán)境中。除此之外,幾乎可以肯定一個特定的架構(gòu)不能滿足所有業(yè)務(wù)需求。最終,數(shù)據(jù)可能最終以某種方式到達(dá),使其實(shí)際上對于員工的發(fā)展目的毫無用處。
因此,數(shù)據(jù)湖架構(gòu)被定義為“讀取時”。換句話說,數(shù)據(jù)湖仍需要一個架構(gòu)。但是,該架構(gòu)不是預(yù)定義的。這是臨時的。當(dāng)用戶將數(shù)據(jù)從存儲位置中拉出時,數(shù)據(jù)將應(yīng)用到計(jì)劃或方案中-而不是隨其進(jìn)入。數(shù)據(jù)湖將數(shù)據(jù)保持在其未更改(自然)狀態(tài);除非并且直到用戶查詢數(shù)據(jù),它才定義需求。
如果使用正確,數(shù)據(jù)湖將為業(yè)務(wù)和技術(shù)用戶提供查詢更小,更相關(guān)和更靈活的數(shù)據(jù)集的能力。結(jié)果,查詢時間可以減少到數(shù)據(jù)集市,數(shù)據(jù)倉庫或關(guān)系數(shù)據(jù)庫中的時間的一小部分。
1、數(shù)據(jù)湖的靈活性提高
數(shù)據(jù)湖強(qiáng)調(diào)數(shù)據(jù)的靈活性和可用性。這樣,它可以為用戶和下游應(yīng)用程序提供無模式的數(shù)據(jù)。也就是說,無論其來源如何,都類似于其“自然”或原始格式的數(shù)據(jù)。
盡管評審團(tuán)還沒有成立,但許多(如果不是大多數(shù))數(shù)據(jù)湖應(yīng)用程序不支持部分或增量加載。(通過這種方式,數(shù)據(jù)湖不同于數(shù)據(jù)倉庫。)組織無法將其部分?jǐn)?shù)據(jù)加載或重新加載到數(shù)據(jù)湖中。它往往是全部或全部。
2、數(shù)據(jù)湖類比
如果您仍在努力處理數(shù)據(jù)湖的概念,那么下面的類比可能會澄清問題。可以將數(shù)據(jù)集市或數(shù)據(jù)倉庫看作是裝滿瓶裝水的存儲設(shè)施。這些案件并不僅僅是一夜之間神奇地出現(xiàn)。人和機(jī)器收集并凈化了水。包裝后,才可以供人們購買和飲用。
相比之下,可以將數(shù)據(jù)湖視為大量天然水,只有在渴死時才可以喝。如果您需要50加侖的水滅火,則無需購買瓶裝水并將它們逐一倒空。一切都準(zhǔn)備就緒。
按照這種類比,數(shù)據(jù)湖中的“水”來自許多地方:河流,支流和瀑布。也就是說,數(shù)據(jù)湖不只容納一種水(即數(shù)據(jù))。數(shù)據(jù)湖可以容納所有類型的數(shù)據(jù):結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化。但是請注意,用結(jié)構(gòu)化數(shù)據(jù)填充數(shù)據(jù)湖意味著它至少會丟失其某些結(jié)構(gòu),并且-您猜到了-其某些價值。為此,如果你只是對結(jié)構(gòu)化數(shù)據(jù)感興趣,數(shù)據(jù)倉庫可能仍然是你最好的選擇。
在我看來,毫無疑問,數(shù)據(jù)湖將在未來的數(shù)據(jù)管理中占據(jù)越來越重要的位置。
1、關(guān)于數(shù)據(jù)湖的兩種思想流派
因?yàn)閿?shù)據(jù)湖現(xiàn)在還處于早期階段,今天的數(shù)據(jù)湖泊的意見是什么,在較高的層次上,有兩種思想流派。一組視圖中的數(shù)據(jù)湖為不僅是重要的,而且還必須為數(shù)據(jù)驅(qū)動的公司。該小組了解現(xiàn)代數(shù)據(jù)倉庫的局限性-原則上講,它們并不是為處理大量非結(jié)構(gòu)化數(shù)據(jù)流而構(gòu)建的。此外,“寫時”和“讀時”之間的區(qū)別不僅僅是語義上的問題。相反,后者使響應(yīng)時間大大加快,并且擴(kuò)展了分析能力。
這是一種觀點(diǎn),我碰巧同意這一觀點(diǎn)。公平地說,我們在這里還沒有達(dá)成行業(yè)共識–距離它還很遠(yuǎn)。數(shù)據(jù)湖的懷疑論者并不害羞。憤世嫉俗的人把數(shù)據(jù)湖看成是流行語,或者是在游戲中占有重要地位的軟件供應(yīng)商的炒作。此外,有些人認(rèn)為數(shù)據(jù)湖是舊概念的新名稱,但對企業(yè)的適用性有限。
除了圍繞該主題的合理混亂外,很少有人以一致的方式使用“數(shù)據(jù)湖”一詞。有些人稱任何數(shù)據(jù)準(zhǔn)備,存儲或發(fā)現(xiàn)環(huán)境為數(shù)據(jù)湖。
2、與Hadoop和關(guān)系數(shù)據(jù)庫并行
在概念化對數(shù)據(jù)湖的需求時,也許最好考慮一下Hadoop –越來越多的組織正在采用的開源,分布式文件系統(tǒng)。Hadoop成長的原因很多,其中最重要的一點(diǎn)是它滿足了關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)無法滿足的真正需求。公平地講,它的開源性質(zhì),容錯能力和并行處理也位居榜首。
RDBMS根本不是設(shè)計(jì)來處理千兆字節(jié)或PB級的非結(jié)構(gòu)化數(shù)據(jù)。嘗試將數(shù)千張照片,視頻,推文,文章和電子郵件加載到傳統(tǒng)的SQL Server或Oracle數(shù)據(jù)庫中,并運(yùn)行報告或編寫SQL語句。祝你好運(yùn)。
幾十年來,數(shù)據(jù)倉庫甚至可以很好地處理大量結(jié)構(gòu)化數(shù)據(jù):員工列表,銷售,交易等。他們提供了無數(shù)的商業(yè)智能和企業(yè)報告應(yīng)用程序。但是,期望那些相同的數(shù)據(jù)倉庫有效地處理根本不同的數(shù)據(jù)量,速度和類型是不合理的。
3、關(guān)于元數(shù)據(jù)的注釋
數(shù)據(jù)湖依賴于本體和元數(shù)據(jù)來從加載到它們中的數(shù)據(jù)中獲取意義。同樣,方法也有所不同。但是一般來說,湖泊中的每個數(shù)據(jù)元素都繼承一個唯一的標(biāo)識符,該標(biāo)識符分配有大量的元數(shù)據(jù)(標(biāo)簽)。結(jié)論:數(shù)據(jù)湖將繼續(xù)存在。
4、數(shù)據(jù)湖的光明前景
在我看來,毫無疑問,數(shù)據(jù)湖將在未來的數(shù)據(jù)管理中占據(jù)越來越重要的位置。組織將繼續(xù)將“小”數(shù)據(jù)與其大數(shù)據(jù)集成在一起,愚蠢的是他們相信一個應(yīng)用程序(無論多么昂貴或強(qiáng)大)都能處理所有事情。
當(dāng)出現(xiàn)業(yè)務(wù)問題時,用戶將比傳統(tǒng)的數(shù)據(jù)存儲和報告支持者所能提供的更快地更快地需要答案。如果使用得當(dāng),數(shù)據(jù)湖可讓用戶分析較小的數(shù)據(jù)集并快速回答關(guān)鍵問題。
填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc