旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系

大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系

時間:2019-11-04來源:lb577.com點擊量:作者:Sissi
時間:2019-11-04點擊量:作者:Sissi





  在過去的幾年中,您可能聽說過有人在某個地方使用“數(shù)據(jù)湖”一詞。隨著數(shù)據(jù)量呈指數(shù)級增長,流數(shù)據(jù)起飛,非結構化數(shù)據(jù)繼續(xù)使其結構化的同類相形見絀,這一概念越來越受到關注。
 

  什么是數(shù)據(jù)湖?它與傳統(tǒng)數(shù)據(jù)倉庫有何不同?AAA教育小編簡單分析一下大數(shù)據(jù)分析數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系
 

一、傳統(tǒng)數(shù)據(jù)倉庫是什么
 

  奇怪的是,在您職業(yè)生涯的某個時候,您遇到了數(shù)據(jù)倉庫,該工具已成為提取,轉(zhuǎn)換和加載(ETL)流程的代名詞。在較高級別上,數(shù)據(jù)倉庫以高度規(guī)范的方式存儲大量結構化數(shù)據(jù)。他們需要一個剛性的,預定義模式加載數(shù)據(jù)之前就存在。(幾乎總是星型或雪花型模式。)換句話說,數(shù)據(jù)倉庫中的模式是“寫時”定義的。ETL流程應盡其所能踢出錯誤報告,生成日志,并將錯誤的記錄發(fā)送到要處理的異常文件和excel表中。在以后的日子。
 

  由于這種剛性及其工作方式,數(shù)據(jù)倉庫支持部分或增量ETL。換句話說(根據(jù)問題的嚴重性),組織可以在出現(xiàn)問題時加載或重新加載其數(shù)據(jù)倉庫的某些部分。
 

  組織通常會定期填充數(shù)據(jù)倉庫。一般而言,數(shù)據(jù)會定期更新(例如,每天早上3點,當員工不太可能訪問數(shù)據(jù)和下游系統(tǒng)時)。員工第二天使用最新壓縮的數(shù)據(jù)上班。
 

  可以肯定的是,存儲在傳統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)在今天仍然有價值。盡管如此,組織及其領導者仍需要開始重新考慮當代數(shù)據(jù)集成??紤]一下物聯(lián)網(wǎng)及其實現(xiàn)的分析。車輛,農(nóng)用設備,可穿戴設備,恒溫器甚至農(nóng)作物上的傳感器會產(chǎn)生大量連續(xù)流的數(shù)據(jù)。最好的選擇是,即使是具有行業(yè)實力的數(shù)據(jù)倉庫也將面臨這些新數(shù)據(jù)流的困擾。

 

大數(shù)據(jù)分析

二、數(shù)據(jù)湖的崛起
 

  在這種背景下,我們已經(jīng)看到了數(shù)據(jù)湖的流行性上升。沒錯:它不是數(shù)據(jù)倉庫或數(shù)據(jù)集市的同義詞。是的,所有這些實體都存儲數(shù)據(jù),但是數(shù)據(jù)湖在以下方面根本不同。數(shù)據(jù)湖的想法是為原始數(shù)據(jù)提供原始數(shù)據(jù)的休息場所,直到需要它為止。數(shù)據(jù)處于休眠狀態(tài),除非并且直到有人或某物需要它。
 

  在訪問數(shù)據(jù)湖時,用戶確定:
 

  他們需要的特定數(shù)據(jù)類型和來源。
 

  他們需要多少。
 

  當他們需要它時。
 

  他們需要派生的分析類型。
 

  所有這些都可能在數(shù)據(jù)倉庫中嗎?可能不是。而且即使有可能,也不太可能在業(yè)務用戶認為可以接受的時間內(nèi)實現(xiàn)這些目標-尤其是在當今瞬息萬變的環(huán)境中。除此之外,幾乎可以肯定一個特定的架構不能滿足所有業(yè)務需求。最終,數(shù)據(jù)可能最終以某種方式到達,使其實際上對于員工的發(fā)展目的毫無用處。
 

  因此,數(shù)據(jù)湖架構被定義為“讀取時”。換句話說,數(shù)據(jù)湖仍需要一個架構。但是,該架構不是預定義的。這是臨時的。當用戶將數(shù)據(jù)從存儲位置中拉出時,數(shù)據(jù)將應用到計劃或方案中-而不是隨其進入。數(shù)據(jù)湖將數(shù)據(jù)保持在其未更改(自然)狀態(tài);除非并且直到用戶查詢數(shù)據(jù),它才定義需求。
 

  如果使用正確,數(shù)據(jù)湖將為業(yè)務和技術用戶提供查詢更小,更相關和更靈活的數(shù)據(jù)集的能力。結果,查詢時間可以減少到數(shù)據(jù)集市,數(shù)據(jù)倉庫或關系數(shù)據(jù)庫中的時間的一小部分。
 

  1、數(shù)據(jù)湖的靈活性提高
 

  數(shù)據(jù)湖強調(diào)數(shù)據(jù)的靈活性和可用性。這樣,它可以為用戶和下游應用程序提供無模式的數(shù)據(jù)。也就是說,無論其來源如何,都類似于其“自然”或原始格式的數(shù)據(jù)。
 

  盡管評審團還沒有成立,但許多(如果不是大多數(shù))數(shù)據(jù)湖應用程序不支持部分或增量加載。(通過這種方式,數(shù)據(jù)湖不同于數(shù)據(jù)倉庫。)組織無法將其部分數(shù)據(jù)加載或重新加載到數(shù)據(jù)湖中。它往往是全部或全部。
 

  2、數(shù)據(jù)湖類比
 

  如果您仍在努力處理數(shù)據(jù)湖的概念,那么下面的類比可能會澄清問題。可以將數(shù)據(jù)集市或數(shù)據(jù)倉庫看作是裝滿瓶裝水的存儲設施。這些案件并不僅僅是一夜之間神奇地出現(xiàn)。人和機器收集并凈化了水。包裝后,才可以供人們購買和飲用。
 

  相比之下,可以將數(shù)據(jù)湖視為大量天然水,只有在渴死時才可以喝。如果您需要50加侖的水滅火,則無需購買瓶裝水并將它們逐一倒空。一切都準備就緒。
 

  按照這種類比,數(shù)據(jù)湖中的“水”來自許多地方:河流,支流和瀑布。也就是說,數(shù)據(jù)湖不只容納一種水(即數(shù)據(jù))。數(shù)據(jù)湖可以容納所有類型的數(shù)據(jù):結構化,半結構化和非結構化。但是請注意,用結構化數(shù)據(jù)填充數(shù)據(jù)湖意味著它至少會丟失其某些結構,并且-您猜到了-其某些價值。為此,如果你只是對結構化數(shù)據(jù)感興趣,數(shù)據(jù)倉庫可能仍然是你最好的選擇。
 

  在我看來,毫無疑問,數(shù)據(jù)湖將在未來的數(shù)據(jù)管理中占據(jù)越來越重要的位置。
 

  1、關于數(shù)據(jù)湖的兩種思想流派
 

  因為數(shù)據(jù)湖現(xiàn)在還處于早期階段,今天的數(shù)據(jù)湖泊的意見是什么,在較高的層次上,有兩種思想流派。一組視圖中的數(shù)據(jù)湖為不僅是重要的,而且還必須為數(shù)據(jù)驅(qū)動的公司。該小組了解現(xiàn)代數(shù)據(jù)倉庫的局限性-原則上講,它們并不是為處理大量非結構化數(shù)據(jù)流而構建的。此外,“寫時”和“讀時”之間的區(qū)別不僅僅是語義上的問題。相反,后者使響應時間大大加快,并且擴展了分析能力。
 

  這是一種觀點,我碰巧同意這一觀點。公平地說,我們在這里還沒有達成行業(yè)共識–距離它還很遠。數(shù)據(jù)湖的懷疑論者并不害羞。憤世嫉俗的人把數(shù)據(jù)湖看成是流行語,或者是在游戲中占有重要地位的軟件供應商的炒作。此外,有些人認為數(shù)據(jù)湖是舊概念的新名稱,但對企業(yè)的適用性有限。
 

  除了圍繞該主題的合理混亂外,很少有人以一致的方式使用“數(shù)據(jù)湖”一詞。有些人稱任何數(shù)據(jù)準備,存儲或發(fā)現(xiàn)環(huán)境為數(shù)據(jù)湖。
 

  2、與Hadoop和關系數(shù)據(jù)庫并行
 

  在概念化對數(shù)據(jù)湖的需求時,也許最好考慮一下Hadoop –越來越多的組織正在采用的開源,分布式文件系統(tǒng)。Hadoop成長的原因很多,其中最重要的一點是它滿足了關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)無法滿足的真正需求。公平地講,它的開源性質(zhì),容錯能力和并行處理也位居榜首。
 

  RDBMS根本不是設計來處理千兆字節(jié)或PB級的非結構化數(shù)據(jù)。嘗試將數(shù)千張照片,視頻,推文,文章和電子郵件加載到傳統(tǒng)的SQL Server或Oracle數(shù)據(jù)庫中,并運行報告或編寫SQL語句。祝你好運。
 

  幾十年來,數(shù)據(jù)倉庫甚至可以很好地處理大量結構化數(shù)據(jù):員工列表,銷售,交易等。他們提供了無數(shù)的商業(yè)智能和企業(yè)報告應用程序。但是,期望那些相同的數(shù)據(jù)倉庫有效地處理根本不同的數(shù)據(jù)量,速度和類型是不合理的。
 

  3、關于元數(shù)據(jù)的注釋
 

  數(shù)據(jù)湖依賴于本體和元數(shù)據(jù)來從加載到它們中的數(shù)據(jù)中獲取意義。同樣,方法也有所不同。但是一般來說,湖泊中的每個數(shù)據(jù)元素都繼承一個唯一的標識符,該標識符分配有大量的元數(shù)據(jù)(標簽)。結論:數(shù)據(jù)湖將繼續(xù)存在。
 

  4、數(shù)據(jù)湖的光明前景
 

  在我看來,毫無疑問,數(shù)據(jù)湖將在未來的數(shù)據(jù)管理中占據(jù)越來越重要的位置。組織將繼續(xù)將“小”數(shù)據(jù)與其大數(shù)據(jù)集成在一起,愚蠢的是他們相信一個應用程序(無論多么昂貴或強大)都能處理所有事情。
 

  當出現(xiàn)業(yè)務問題時,用戶將比傳統(tǒng)的數(shù)據(jù)存儲和報告支持者所能提供的更快地更快地需要答案。如果使用得當,數(shù)據(jù)湖可讓用戶分析較小的數(shù)據(jù)集并快速回答關鍵問題。



 

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖