以前之所以沒有大數(shù)據(jù)分析近兩年才有,有一個很關(guān)鍵卻很容易被忽視的原因:現(xiàn)在是互聯(lián)網(wǎng)時代,以前不是,20年前網(wǎng)絡到底是什么很多人都不知道,哪怕有大量數(shù)據(jù)、如超過10tb的數(shù)據(jù)集放在你的手中,但也無法簡單通過人力、紙筆做分析,甚至連一本500kb的書籍看完都要好幾個月,更何況是10tb的數(shù)據(jù),等人力看完了早就過了對應的時效性了。而隨著互聯(lián)網(wǎng)的高速發(fā)展,各種軟件、系統(tǒng)層出不窮,大數(shù)據(jù)分析也隨之而生。
那么,到底大數(shù)據(jù)分析用什么軟件?下面就由我來具體分析和介紹一下,希望對大家有所幫助。
1、hadoop,在談及hadoop的時候不少人會將它直接等同于數(shù)據(jù)分析,可見它有多重要。Hadoop乃是一個軟件框架,它能對大量數(shù)據(jù)進行分布式處理,它可靠高效又可伸縮。具體來說,它在設(shè)定時就已經(jīng)融入了一個想法“假設(shè)計算元素和存儲會失敗”,因為它可維護多個工作數(shù)據(jù)副本,就失敗的節(jié)點再次進行二次分布。它同時還是可并行的方式,因為可并行所以處理起來的速度更快。還有,hadoop也是可伸縮的,它能處理達到pb級數(shù)據(jù)。更重要的是,hadoop還有高的擴展性,它能利用計算機的分配數(shù)據(jù)完成計算任務。
2、Hpcc,在1993年的時候美國提交了重大挑戰(zhàn)項目,它就被稱呼hpcc計劃,也叫做美國總統(tǒng)科學戰(zhàn)略項目,該項目包含了hpcs、asta、nren、brhr、iita等諸多部分,翻譯成中文分別是高性能計算機系統(tǒng)、先進軟件技術(shù)與算法、國家科研與網(wǎng)絡教育、基本研究與人類資源、信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應用,而現(xiàn)在hpcc已經(jīng)不再單純代表著以上這些了,它還是一個可被用于大數(shù)據(jù)分析的軟件工具。
3、Storm,它乃是開源軟件,系分布式的、容錯性強的計算系統(tǒng),它的主要特色體現(xiàn)在:能用來快速處理十分龐大的數(shù)據(jù)量,而且它還支持不同編程語言,用起來感覺不錯。Storm乃是由twitter開源來的,它的應用領(lǐng)域極廣,包含實時分析、在線機器學習、rpc、etl等等。
4、Apache drill,它乃是一種查詢軟件,主要的價值體現(xiàn)在:能用來尋找更有效快速查詢數(shù)據(jù)的方法。
關(guān)于大數(shù)據(jù)分析一些人會錯誤的認為,只要將以上軟件系統(tǒng)都get起來即可,其實不然大數(shù)據(jù)分析是一個跨學科崗位,除了要懂軟件外還得了解算法、統(tǒng)計學、概率學等等學科,學會軟件只是具備了基礎(chǔ)哦。
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc