旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析師工作內(nèi)容

大數(shù)據(jù)分析師工作內(nèi)容

時間:2019-07-13來源:lb577.com點擊量:作者:Sissi
時間:2019-07-13點擊量:作者:Sissi



  很多初學者,對大數(shù)據(jù)分析的概念都是模糊不清的,大數(shù)據(jù)分析是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發(fā)展,很多人對于大數(shù)據(jù)分析師的印象就是坐在辦公室對著電腦噼里啪啦的敲鍵盤,跟程序員差不多,這種想法是錯誤的,其實大數(shù)據(jù)分析師是一個很高大上的職業(yè),大數(shù)據(jù)分析師通過獲取必要的數(shù)據(jù),分析這些數(shù)據(jù),然后從數(shù)據(jù)中發(fā)現(xiàn)一些問題提出自己的想法,這就是一個大數(shù)據(jù)分析師的基本工作內(nèi)容。
 

  大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個環(huán)節(jié)。從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:
 

  數(shù)據(jù)采集 -> 數(shù)據(jù)清洗 -> 數(shù)據(jù)存儲 -> 數(shù)據(jù)分析統(tǒng)計 -> 數(shù)據(jù)可視化 等幾個方面
 

  大數(shù)據(jù)分析工作內(nèi)容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現(xiàn)上面幾個方面的功能。具體說說如下:

大數(shù)據(jù)分析

一、數(shù)據(jù)采集
 

  業(yè)務系統(tǒng)的埋點代碼時刻會產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實現(xiàn)分散日志的聚合,即采集。
 

二、數(shù)據(jù)清洗
 

  原始的日志,數(shù)據(jù)是千奇百怪的

  一些字段可能會有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的"數(shù)據(jù)分析統(tǒng)計"能拿到比較高質(zhì)量的數(shù)據(jù),需要對這些記錄進行過濾或者字段數(shù)據(jù)回填。

  一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節(jié)省存儲開銷,需要刪除這些多余的字段信息。

  一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字符替換。

大數(shù)據(jù)分析

三、數(shù)據(jù)存儲
 

  清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉庫(Hive),供下游做離線分析。如果下游的"數(shù)據(jù)分析統(tǒng)計"對實時性要求比較高,則可以把日志記錄入到kafka。
 

四、大數(shù)據(jù)分析統(tǒng)計
 

  大數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費來自上游的數(shù)據(jù)。其實就是從日志記錄里頭統(tǒng)計出各種各樣的報表數(shù)據(jù),簡單的報表統(tǒng)計可以用sql在kylin或者hive統(tǒng)計,復雜的報表就需要在代碼層面用Spark、Storm做統(tǒng)計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。
 

五、數(shù)據(jù)可視化
 

  用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游"大數(shù)據(jù)分析統(tǒng)計"的數(shù)據(jù)。一般公司的某些決策會參考這些圖表里頭的數(shù)據(jù)。當然,大數(shù)據(jù)平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分。

大數(shù)據(jù)分析

  大數(shù)據(jù)分析師工作的流程簡單分為兩部分,第一部分就是獲取數(shù)據(jù),第二部分就是對數(shù)據(jù)進行處理。那么怎么獲得數(shù)據(jù)呢?首先,我們要知道,獲取相關(guān)的數(shù)據(jù),是數(shù)據(jù)分析的前提。每個企業(yè),都有自己的一套存儲機制。因此,基礎的SQL語言是必須的。具備基本SQL基礎,再學習下其中細節(jié)的語法,基本就可以到很多數(shù)據(jù)了。當每個需求明確以后,都要根據(jù)需要,把相關(guān)的數(shù)據(jù)獲取到,做基礎數(shù)據(jù)。
 

  獲得了數(shù)據(jù)以后,才能夠進行數(shù)據(jù)處理工作。獲取數(shù)據(jù),把數(shù)據(jù)處理成自己想要的東西,是一個關(guān)鍵點。很多時候,有了數(shù)據(jù)不是完成,而是分析的開始。大數(shù)據(jù)分析師最重要的工作就是把數(shù)據(jù)根據(jù)需求處理好,只有數(shù)據(jù)跟需求結(jié)合起來,才能發(fā)揮數(shù)據(jù)的價值,看到需求的問題和本質(zhì)所在。如果連數(shù)據(jù)都沒處理好,何談從數(shù)據(jù)中發(fā)現(xiàn)問題呢?
 

  就目前而言,大數(shù)據(jù)分析日益成為研究行業(yè)的重要研究目標。面對其高數(shù)據(jù)量、多維度與異構(gòu)化的特點,以及分析方法思路的擴展,傳統(tǒng)統(tǒng)計工具已經(jīng)難以應對。所以我們要使用專業(yè)的大數(shù)據(jù)分析工具。大數(shù)據(jù)分析工具都有Excel、SPSS、SAS等工具。Excel、SPSS、SAS 這三者對于大數(shù)據(jù)分析師來說并不陌生。但是這三種大數(shù)據(jù)分析工具應對的數(shù)據(jù)分析的場景并不是相同的,一般來說,SPSS 輕量、易于使用,但功能相對較少,適合常規(guī)基本統(tǒng)計分析。而SPSS和SAS作為商業(yè)統(tǒng)計軟件,提供研究常用的經(jīng)典統(tǒng)計分析處理。由于SAS 功能豐富而強大,且支持編程擴展其分析能力,適合復雜與高要求的統(tǒng)計性分析。
 

  以上的內(nèi)容就是AAA教育小編為大家講解的大數(shù)據(jù)分析師的工作內(nèi)容了,大數(shù)據(jù)分析師的工作是比較繁瑣的,但是也是比較高大上的。大家在了解大數(shù)據(jù)分析工作內(nèi)容的時候可以參考這篇文章,這樣可以更好的理解大數(shù)據(jù)分析行業(yè),最后感謝大家的閱讀。



 

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖