最近總有同學們在網(wǎng)絡(luò)上問大數(shù)據(jù)分析的意義和價值是什么,我找大數(shù)據(jù)分析培訓課程的老師深入了解了一下并拿來了一些干貨,將這個問題分享出來,讓大家不再疑惑大數(shù)據(jù)分析的模樣。
大數(shù)據(jù)分析提供了幾乎無窮無盡的業(yè)務(wù)和信息洞察力資源,可導致運營改善和新的機會,使公司能夠在幾乎每個行業(yè)提供未實現(xiàn)的收入。從客戶個性化的用例,到降低風險,欺詐檢測,內(nèi)部運營分析,以及幾乎每天都會出現(xiàn)的所有其他新用例,公司數(shù)據(jù)中隱藏的價值使公司希望創(chuàng)建前沿的分析業(yè)務(wù)。
在原始數(shù)據(jù)中發(fā)現(xiàn)價值給IT團隊帶來了許多挑戰(zhàn)。每個公司都有不同的需求和不同的數(shù)據(jù)資產(chǎn)。在不斷發(fā)展的市場中,業(yè)務(wù)計劃會快速變化,并且與新指令保持一致可能需要敏捷性和可伸縮性。最重要的是,成功的大數(shù)據(jù)分析操作需要大量的計算資源,技術(shù)基礎(chǔ)架構(gòu)和高技能的人員。
所有這些挑戰(zhàn)都可能導致許多操作在交付價值之前失敗。過去,由于缺乏計算能力和自動化功能,因此無法進行真正的生產(chǎn)規(guī)模分析操作,這超出了大多數(shù)公司的能力:大數(shù)據(jù)太昂貴,麻煩太多且沒有明顯的投資回報率。隨著云計算的興起以及計算資源管理中的新技術(shù)的出現(xiàn),大數(shù)據(jù)分析工具的訪問比以往任何時候都更加容易。
一、大數(shù)據(jù)分析的由來
在許多早期的互聯(lián)網(wǎng)和技術(shù)公司的推動下,大數(shù)據(jù)出現(xiàn)于2000年代初的數(shù)據(jù)繁榮時期。軟件和硬件功能有史以來第一次可以跟上消費者產(chǎn)生的大量非結(jié)構(gòu)化信息。搜索引擎,移動設(shè)備和工業(yè)機器等新技術(shù)提供了公司可以處理的盡可能多的數(shù)據(jù),而且規(guī)模還在不斷增長。
隨著可收集數(shù)據(jù)的天文數(shù)字增長,很快變得很明顯,傳統(tǒng)數(shù)據(jù)技術(shù)(例如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)不適合與大量非結(jié)構(gòu)化數(shù)據(jù)一起使用。早期的大數(shù)據(jù)創(chuàng)新項目是由Apache軟件基金會(Apache Software Foundation)開源的,其中最重要的貢獻來自Google,Yahoo,F(xiàn)acebook,IBM,學術(shù)界等。一些使用最廣泛的引擎是:
Apache Hive / Hadoop是用于復雜ETL和數(shù)據(jù)準備的主力軍,可將信息提供給許多分析環(huán)境或數(shù)據(jù)存儲以進行進一步分析。
Apache Spark(由加州大學伯克利分校開發(fā))通常用于繁重的計算工作,這些工作通常是批處理ETL和ML工作負載,但也與Apache Kafka等技術(shù)結(jié)合使用。
Presto是一個SQL引擎,可快速可靠地發(fā)布報表和臨時分析。
大數(shù)據(jù)分析典型部署圖
二、大數(shù)據(jù)分析的商業(yè)價值
隨著數(shù)據(jù)呈指數(shù)增長,企業(yè)需要不斷擴展其基礎(chǔ)架構(gòu)以最大化數(shù)據(jù)的經(jīng)濟價值。在大數(shù)據(jù)的早期(大約2008年),當Hadoop首次獲得大型企業(yè)的認可時,站起一個有用的生產(chǎn)系統(tǒng)極其昂貴且效率低下。使用大數(shù)據(jù)還意味著需要合適的人員和軟件技術(shù),以及用于處理數(shù)據(jù)和查詢速度的硬件。對齊所有內(nèi)容以使其同步運行是一項極其艱巨的任務(wù),并導致許多大數(shù)據(jù)項目失敗。
如今,云計算已經(jīng)變成了一個改變市場的趨勢,因為無論規(guī)模大小,企業(yè)都可以通過單擊幾下即時訪問基礎(chǔ)架構(gòu)和高級技術(shù)。這是云提供了一個強大的基礎(chǔ)架構(gòu),使公司能夠超越現(xiàn)有系統(tǒng)發(fā)展的地方:
1、 數(shù)量
信息在增長,數(shù)據(jù)具有有效期,擁有便宜的云存儲使公司可以處理大量數(shù)據(jù),而不必擔心什么是有價值的和不有價值的。
2、 種類繁多
對非結(jié)構(gòu)化數(shù)據(jù)進行分析的需求正在增長,這推動了對諸如深度學習之類的不同框架進行處理的需求。臨時云計算服務(wù)器使公司可以針對同一數(shù)據(jù)反復測試不同的大數(shù)據(jù)引擎。
3、 速度
分析問題的復雜性需要幾步大數(shù)據(jù)(例如,機器學習估計占計算資源的ETL約80%),云計算公司可以根據(jù)需求擴大/縮小規(guī)模。
4、 價值
對AI驅(qū)動的應(yīng)用程序的需求推動了對現(xiàn)代大數(shù)據(jù)架構(gòu)的需求,該架構(gòu)允許應(yīng)用程序,存儲和計算資源分別進行橫向擴展。
三、 大數(shù)據(jù)分析與商業(yè)智能
商業(yè)智能通常被稱為大數(shù)據(jù)分析的四個步驟的前兩個描述和診斷階段。BI通常托管在一個數(shù)據(jù)倉庫中,在該倉庫中,數(shù)據(jù)本質(zhì)上是結(jié)構(gòu)化的,并且僅說明發(fā)生了什么“事情,地點和方式”。該數(shù)據(jù)通常用于報告和收集基于最近事件的流行趨勢和互動的見解。
大數(shù)據(jù)分析更進一步,因為該技術(shù)可以訪問各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集(例如用戶行為或圖像)。大數(shù)據(jù)分析工具可以將這些數(shù)據(jù)與歷史信息結(jié)合起來,根據(jù)過去的經(jīng)驗來確定事件發(fā)生的可能性。
四、為什么要用大數(shù)據(jù)分析
在過去十年中,4 V已成為大數(shù)據(jù)分析發(fā)展的眾所周知的催化劑。此外,我們進入了一個新時代,新挑戰(zhàn)不斷發(fā)展,例如開源技術(shù)的“多樣性”,機器學習用例以及大數(shù)據(jù)生態(tài)系統(tǒng)的快速發(fā)展。這些增加了圍繞著如何與不斷增長的信息,跟上新的挑戰(zhàn),同時平衡如何保證在這樣一個嘈雜的環(huán)境中的高級分析的有效性。
預測性和規(guī)范性分析處于過渡狀態(tài),并且需要傳統(tǒng)數(shù)據(jù)倉庫無法提供服務(wù)的現(xiàn)代基礎(chǔ)架構(gòu)。擁有一個大數(shù)據(jù)平臺,使團隊可以通過適當?shù)淖灾?wù)訪問非結(jié)構(gòu)化數(shù)據(jù),從而使公司可以進行更具創(chuàng)新性的數(shù)據(jù)操作。
描述性分析(發(fā)生的時間) –在傳統(tǒng)的商業(yè)智能和報告分析中很常見。
診斷分析(在何處以及如何發(fā)生) –使商務(wù)智能更進一步,可以向最終用戶提供報告或根據(jù)數(shù)據(jù)結(jié)果向他們發(fā)送一系列操作。
預測分析(會發(fā)生什么以及如何) -當一個模型應(yīng)用于數(shù)據(jù),并作出決定或概率得分是基于歷史事件給出。該數(shù)據(jù)也可飼喂未來決策回到商業(yè)智能系統(tǒng)來幫助。
規(guī)范分析(我們應(yīng)該做什么) –獲取數(shù)據(jù)的預測輸出,并將其放入實用的應(yīng)用程序中,以提出建議或向最終用戶發(fā)出警報(例如欺詐檢測或電子商務(wù)購物)。通常需要將這些數(shù)據(jù)放入一個數(shù)據(jù)集市,該數(shù)據(jù)集市可以近乎實時地提供給應(yīng)用程序。
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc