最近有不少同學(xué)向AAA教育老師咨詢有關(guān)大數(shù)據(jù)分析職業(yè)發(fā)展的問題,由此可見,隨著大數(shù)據(jù)分析的飛速發(fā)展,大數(shù)據(jù)分析職業(yè)也成為很多同學(xué)關(guān)注的目標(biāo)。不要急,AAA教育老師這就給大家介紹大數(shù)據(jù)分析的職業(yè)發(fā)展。
一、為什么要做大數(shù)據(jù)分析師
在通信、互聯(lián)網(wǎng)、金融等這些行業(yè)每天產(chǎn)生巨大的數(shù)據(jù)量(長期更是積累了大量豐富的數(shù)據(jù),比如客戶交易數(shù)據(jù)等等),據(jù)說到2020年,全球每年產(chǎn)生的數(shù)據(jù)量達到3500萬億GB;海量的歷史數(shù)據(jù)是否有價值,是否可以利用為領(lǐng)導(dǎo)決策提供參考依據(jù)?隨著軟件工具、數(shù)據(jù)庫技術(shù)、各種硬件設(shè)備的飛快發(fā)展,使得我們分析海量數(shù)據(jù)成為可能。
而大數(shù)據(jù)分析也越來越受到領(lǐng)導(dǎo)層的重視,借助報表告訴用戶什么已經(jīng)發(fā)生了,借助OLAP和可視化工具等分析工具告訴用戶為什么發(fā)生了,通過dashboard監(jiān)控告訴用戶現(xiàn)在在發(fā)生什么,通過預(yù)報告訴用戶什么可能會發(fā)生。大數(shù)據(jù)分析會從海量數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價值的、潛在的知識,找出趨勢,為決策層的提供有力依據(jù),為產(chǎn)品或服務(wù)發(fā)展方向起到積極作用,有力推動企業(yè)內(nèi)部的科學(xué)化、信息化管理。
二、入門和職業(yè)規(guī)劃應(yīng)該從兩個角度考慮:領(lǐng)域和路線
領(lǐng)域是不少新人常忽略的要素,其實大數(shù)據(jù)分析不會脫離業(yè)務(wù)存在。你進入哪個行業(yè),很大程度會決定你初期的技能樹和技能點。譬如金融領(lǐng)域的風(fēng)控模型、營銷領(lǐng)域的生命周期、廣告領(lǐng)域的點擊率預(yù)估等,各有各的特色。
如果是一位應(yīng)屆生,不妨多了解自己感興趣的領(lǐng)域,和專業(yè)相關(guān)是最好的,并且積累相關(guān)的經(jīng)驗,為面試做準備。
如果已經(jīng)有一定行業(yè)履歷,只是想要轉(zhuǎn)崗大數(shù)據(jù)分析師,那么跨崗不跨行,避免跳到一個陌生的領(lǐng)域。
領(lǐng)域經(jīng)驗太寬泛,我給不了太多的指點,主要也就三點:1.自己感興趣的,2.自己擅長的,3.有錢途的。從職場生涯看,成為某領(lǐng)域的數(shù)據(jù)專家,會是一個更好的籌碼。
三、職業(yè)規(guī)劃
對于大數(shù)據(jù)分析,有一句話說的非常好:spss/sql之類的軟件、決策樹、時間序列之類的方法,這些僅僅就都是個工具而已,最重要的是對業(yè)務(wù)的把握。沒有正確的業(yè)務(wù)理解,再牛的理論,再牛的工具,都是白搭。做一名合格的大數(shù)據(jù)分析師,除了對數(shù)據(jù)需要有良好的敏感性之外,對相關(guān)業(yè)務(wù)的背景的深入了解,對客戶或業(yè)務(wù)部門的需求的清晰認識。根據(jù)實際的業(yè)務(wù)發(fā)展情況識別哪些數(shù)據(jù)可用,哪些不適用,而不是孤立地在“真空環(huán)境”下進行分析。
而大數(shù)據(jù)分析路線大致可以劃分成四大方向:數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)產(chǎn)品,數(shù)據(jù)工程。
3.1數(shù)據(jù)分析/數(shù)據(jù)運營/商業(yè)分析
這是業(yè)務(wù)方向的數(shù)據(jù)分析師。絕大部分人,都是從這個崗位開始自己的數(shù)據(jù)之路,也是基數(shù)最大的崗位。因為基數(shù)大,所以這類崗位通常魚龍混雜。有些雖然叫數(shù)據(jù)分析師,但是每天只需要和Excel打交道,完成leader布置的表格整理工作就行?;靷€幾年,成為一位數(shù)據(jù)分析主管,給下面的新人繼續(xù)布置Excel任務(wù)。
又有一種大數(shù)據(jù)分析師,崗位職責(zé)要求你掌握常用的機器學(xué)習(xí)算法,面試首先推導(dǎo)一個決策樹或者邏輯回歸。入職后也是各類代碼,和分析打交道的情況不多。都叫大數(shù)據(jù)分析師,其實天差地別。這里更多指互聯(lián)網(wǎng)行業(yè),偏業(yè)務(wù)的數(shù)據(jù)分析師,一般屬于運營部門。不少公司也稱數(shù)據(jù)運營或者商業(yè)分析。
這類崗位的職位描述一般是:
1)負責(zé)和支撐各部門相關(guān)的報表;
2)建立和優(yōu)化指標(biāo)體系;
3)監(jiān)控數(shù)據(jù)的波動和異常,找出問題;
4)優(yōu)化和驅(qū)動業(yè)務(wù),推動數(shù)據(jù)化運營;
5)找出可增長的市場或產(chǎn)品優(yōu)化空間;
6)輸出專題分析報告;
實際情況是,不少業(yè)務(wù)端的大數(shù)據(jù)分析師,主要工作只做第一點。別管它用匯總、分析、數(shù)據(jù)支持什么修飾詞,基本是跑SQL,做報表。硬生生活成了業(yè)務(wù)端的表哥。這是很常見的情況,也是入門新人的第一個坑。因為從頭到尾,這類分析師,都沒有解決問題。業(yè)務(wù)部門往往更關(guān)心,某個指標(biāo)為什么下跌或者上升。產(chǎn)品的用戶是什么樣的?怎么能更好的完成自己的KPI。
以活躍指標(biāo)的下跌舉例:
活躍指標(biāo)下跌了多少?是屬于合理的數(shù)據(jù)波動,還是突發(fā)式?
什么時候開始的下跌?
是整體的活躍用戶下跌,還是部分用戶?
為什么下跌?是產(chǎn)品版本,還是運營失誤?
怎么解決下跌的問題
這是一套標(biāo)準的解決思維。分別對應(yīng)what、when、who、why、how,每一部分都不是三言兩語可以解釋清楚。不要看它簡單,例如你通過多維分析,發(fā)現(xiàn)某個地區(qū)的活躍下跌了,不要急著把它作為分析的結(jié)論,這是不合格的數(shù)據(jù)分析。某地區(qū)的活躍下跌,只是現(xiàn)象,不是原因,把它作為結(jié)論提交,肯定會被罵的。
你要解決的是,為什么這個地區(qū)的活躍下跌了。是該地渠道,是該地競爭對手,是該地市場環(huán)境?這些問題都是細化深入的范疇。并且,它們要能以量化解釋,而不是我認為。做好了這點,才是一個真正的業(yè)務(wù)端的數(shù)據(jù)分析師。
當(dāng)然,這一點看的是leader。leader能否帶你進入業(yè)務(wù)分析的大門,決定你將來是不是成為一個表哥。新人切記切記。
解決問題是一方面工作,另外一方面,大數(shù)據(jù)分析師的職責(zé)是將業(yè)務(wù)數(shù)據(jù)體系化,建立一套指標(biāo)框架?;钴S下跌的問題,本質(zhì)上也是指標(biāo)問題。什么時候開始下跌,哪部分下跌,都能轉(zhuǎn)化成對應(yīng)指標(biāo),如日活躍用戶數(shù),新老用戶活躍數(shù),地區(qū)活躍數(shù)。
你不能衡量它,就無法增長它,指的就是指標(biāo)體系。指標(biāo)體系可以是業(yè)務(wù)部門建立,但數(shù)據(jù)分析師也挺合適。一方面他們比數(shù)據(jù)挖掘這類技術(shù)崗位更貼合業(yè)務(wù),一方面不像業(yè)務(wù)崗位對數(shù)據(jù)抓瞎。兩者結(jié)合,這崗位也能稱為數(shù)據(jù)運營。
指標(biāo)體系如果工程化自動化,也就是BI,所以大數(shù)據(jù)分析師可以算半個BI分析師,這里不包括BI報表開發(fā)。BI如果采購第三方,數(shù)據(jù)分析師負責(zé)BI沒問題,如果自有開發(fā),那么BI崗技術(shù)的色彩更濃厚。
數(shù)據(jù)分析思維和業(yè)務(wù)的理解,是分析師賴以生存的技能。很多時候,工具是錦上添花的作用。掌握Excel+SQL/hive,了解描述統(tǒng)計學(xué),知道常見的可視化表達,足夠完成大部分任務(wù)。機器學(xué)習(xí)這類能力,對此類大數(shù)據(jù)分析師不是必須的,Python也一樣,只是加分項。畢竟為什么下跌,你無法用數(shù)據(jù)挖掘解答。
大數(shù)據(jù)分析師是一個基礎(chǔ)崗位,如果專精于業(yè)務(wù),更適合往管理端發(fā)展,單純的工具和技巧很難拉開差距。數(shù)據(jù)分析的管理崗,比較常見的有數(shù)據(jù)運營經(jīng)理/總監(jiān),數(shù)據(jù)分析經(jīng)理等,相對應(yīng)的能力是能建立指標(biāo)體系,并且解決日常的各類「為什么」問題。
商業(yè)/市場分析是另外一個方向,更多見于傳統(tǒng)行業(yè)。你要開一家超市,你得考慮哪里開,這就要考慮居民密度,居民消費能力,競爭對手的多寡,步行交通距離,開車交通距離等。這些數(shù)據(jù)是宏觀的大指標(biāo),往往靠搜索和調(diào)研完成,這是和互聯(lián)網(wǎng)數(shù)據(jù)分析師最大的差異。
若往其他分支發(fā)展,比如數(shù)據(jù)挖掘工程師,則要繼續(xù)掌握Python和機器學(xué)習(xí)等。從業(yè)務(wù)型發(fā)展上來的好處是接地氣,具備商業(yè)洞察力(天天搞報表,怎么可能不熟),這點是直接做數(shù)據(jù)挖掘,或者程序員轉(zhuǎn)崗,所不具備的。
新人,比較普適的發(fā)展路線是先成為一位數(shù)據(jù)分析師。積累相關(guān)的經(jīng)驗,在一兩年后,決定往后的發(fā)展,是數(shù)據(jù)挖掘,還是專精數(shù)據(jù)分析成為管理崗。
3.2數(shù)據(jù)挖掘/算法專家
這是技術(shù)向的數(shù)據(jù)崗,有些歸類在研發(fā)部門,有些則單獨成立數(shù)據(jù)部門。數(shù)據(jù)挖掘工程師要求更高的統(tǒng)計學(xué)能力、數(shù)理能力以及編程技巧。從概念上說,數(shù)據(jù)挖掘Data mining是一種方式,機器學(xué)習(xí)Machine Learning是一門方法/學(xué)科。機器學(xué)習(xí)主要是有監(jiān)督和無監(jiān)督學(xué)習(xí),有監(jiān)督又可劃分成回歸和分類,它們是從過去的歷史數(shù)據(jù)中學(xué)習(xí)到一個模型,模型可以針對特定問題求解。數(shù)據(jù)挖掘的范圍則大得多,即可以通過機器學(xué)習(xí),而能借助其他算法。比如協(xié)同過濾、關(guān)聯(lián)規(guī)則、PageRank等,它們是數(shù)據(jù)挖掘的經(jīng)典算法,但不屬于機器學(xué)習(xí),所以在機器學(xué)習(xí)的書籍上,你是看不到的。實際的應(yīng)用場景中,如外賣行業(yè),如何尋找騎手效率最大化的最優(yōu)路徑,同樣屬于最優(yōu)化,也是數(shù)據(jù)挖掘的工作范疇。數(shù)據(jù)挖掘工程師,除了掌握算法,同樣需要編程能力去實現(xiàn),不論R、Python、Scala/Java,至少掌握一種。模型的實施,往往也要求Hadoop/Spark的工程實踐經(jīng)驗,精通SQL/Hive是必須的。
常見數(shù)據(jù)挖掘項目的閉環(huán)如下:
1)定義問題
2)數(shù)據(jù)抽取
3)數(shù)據(jù)清洗
4)特征選取/特征工程
5)數(shù)據(jù)模型
6)數(shù)據(jù)驗證
7)迭代優(yōu)化
單看環(huán)節(jié),數(shù)據(jù)挖掘?qū)Ψ治瞿芰]有業(yè)務(wù)型那么高。這不代表業(yè)務(wù)不重要,尤其在特征選取方面,對業(yè)務(wù)的理解很大程度會影響特征怎么選取,進而影響模型質(zhì)量。用戶流失是一個經(jīng)典的考題,如何選取合適的特征,預(yù)測用戶會否流失,能夠考察對業(yè)務(wù)是否深刻洞察。
數(shù)據(jù)挖掘的業(yè)務(wù)領(lǐng)域一樣可以細分。金融行業(yè)的信用模型和風(fēng)控模型/反欺詐模型、廣告模型的點擊預(yù)估模型、電商行業(yè)的推薦系統(tǒng)和用戶畫像系統(tǒng)。從需求提出到落地,數(shù)據(jù)挖掘工程師除了全程跟進也要熟悉業(yè)務(wù)。因為要求高,所以數(shù)據(jù)挖掘的平均薪資高于數(shù)據(jù)分析師。
一個分工明確的團隊,數(shù)據(jù)分析師負責(zé)將業(yè)務(wù)需求抽象成一個具體的數(shù)據(jù)假設(shè)或者模型。比如,運營希望減少用戶流失,那么設(shè)立一個流失指標(biāo),現(xiàn)在需要預(yù)測用戶流失率的模型。模型可以是數(shù)據(jù)分析師完成,也能是數(shù)據(jù)挖掘工程師。最終由數(shù)據(jù)挖掘團隊部署到線上。在一些公司,高級數(shù)據(jù)分析師會等價于數(shù)據(jù)挖掘工程師(其實行業(yè)內(nèi),對Title并沒有嚴格的標(biāo)準),只是工程能力可以稍弱,模型部署由專門的工程團隊完成。
數(shù)據(jù)挖掘工程師,往后發(fā)展,稱為算法專家。后者對理論要求更嚴苛,幾乎都要閱讀國外的前沿論文。方向不局限于簡單的分類或者回歸,還包括圖像識別、自然語言處理、智能量化投顧這種復(fù)合領(lǐng)域。這里開始會對從業(yè)者的學(xué)校和學(xué)歷提出要求,名校+碩士無疑是一個大優(yōu)勢,也有很多人直接做數(shù)據(jù)挖掘。深度學(xué)習(xí)則更前沿,它由神經(jīng)網(wǎng)絡(luò)發(fā)展而來,是機器學(xué)習(xí)的一個子集。因為各類框架開枝散葉,諸多模型百花齊放,也可以算一個全新的分支。除了要求熟悉TensorFlow, Caffe, MXNet等深度學(xué)習(xí)框架,對模型的應(yīng)用和調(diào)參也是必備的,后者往往是劃分普通人和大牛的天塹。算法專家和深度學(xué)習(xí)專家,薪資level會更高一級,一般對應(yīng)于業(yè)務(wù)型的數(shù)據(jù)運營/分析總監(jiān)。數(shù)據(jù)科學(xué)家是上述崗位的最終形態(tài)之一,要么理論能力非常強,往往擔(dān)任研究院的一把手。要么工程能力突出,上述的系統(tǒng)都能完成平臺化的部署。
3.3數(shù)據(jù)產(chǎn)品經(jīng)理
這個崗位比較新興,它有兩種理解,一種是具備強數(shù)據(jù)分析能力的PM,一種是公司數(shù)據(jù)產(chǎn)品的規(guī)劃者。前者,以數(shù)據(jù)導(dǎo)向優(yōu)化和改進產(chǎn)品。在產(chǎn)品強勢的公司,數(shù)據(jù)分析也會劃歸到產(chǎn)品部門,甚至運營也屬于產(chǎn)品部。這類產(chǎn)品經(jīng)理有更多的機會接觸業(yè)務(wù),屬于順便把分析師的活也干了,一專多能的典型。他們會運用不同的數(shù)據(jù)源,對用戶的行為特征分析和挖掘,達到改進產(chǎn)品。最典型的場景就是AB測試。大到頁面布局、路徑規(guī)劃、小到按鈕的顏色和樣式,均可以通過數(shù)據(jù)指標(biāo)評估。俗話說,再優(yōu)秀的產(chǎn)品經(jīng)理也跑不過一半AB測試。此類數(shù)據(jù)產(chǎn)品經(jīng)理,更多是注重數(shù)據(jù)分析能力,擅長用分析進行決策。數(shù)據(jù)是能力的一部分。后者,是真正意義上的數(shù)據(jù)產(chǎn)品經(jīng)理。在公司邁大邁強后,數(shù)據(jù)量與日俱增,此時會有不少數(shù)據(jù)相關(guān)的產(chǎn)品項目:包括大數(shù)據(jù)平臺、埋點采集系統(tǒng)、BI、推薦系統(tǒng)、廣告平臺等。這些當(dāng)然也是產(chǎn)品,自然需要提煉需求、設(shè)計、規(guī)劃、項目排期,乃至落地。
我們不妨看幾個數(shù)據(jù)產(chǎn)品經(jīng)理要求:
1)負責(zé)大數(shù)據(jù)產(chǎn)品的設(shè)計,輸出需求文檔、產(chǎn)品原型;
2)負責(zé)推薦算法的產(chǎn)品策略,完成相關(guān)推薦及個性化推薦產(chǎn)品的需求分析;
3)負責(zé)分析和挖掘用戶消費內(nèi)容的行為數(shù)據(jù),為改進算法策略提供依據(jù);
4)負責(zé)客戶端數(shù)據(jù)需求的對接,制定相關(guān)埋點規(guī)范及口徑,相關(guān)業(yè)務(wù)指標(biāo)驗證;
5)報表展示工具的落地和應(yīng)用;
和C端注重用戶體驗不同,數(shù)據(jù)產(chǎn)品,更注重整體的分析能力和邏輯。除了產(chǎn)品經(jīng)理最基礎(chǔ)的Axure、Visio、MindManager等工具。往往還需要很多技術(shù)型的能力。比如了解BI/DW原理和實施、了解常用的推薦算法、了解機器學(xué)習(xí)模型等。這也很容易理解,C端要求你了解用戶需求,而在數(shù)據(jù)端,主要用戶就是數(shù)據(jù)。這當(dāng)然不是說,用戶體驗不重要,拿推薦算法來說,除了滿足用戶最基本的感興趣,也要考慮時效性,考慮新興趣的挖掘,考慮無數(shù)據(jù)時的冷啟動問題…這些一樣是用戶體驗,只是解決方案也得從數(shù)據(jù)出發(fā)。再多思考一步,模型是離線還是實時,實時怎么實現(xiàn)它?技術(shù)細則不用多考慮,但你要知道會有這些坑。后端的數(shù)據(jù)產(chǎn)品,如報表,用戶往往是你隔壁工位的小秦或小路,設(shè)計得丑一點不要緊,要是數(shù)據(jù)指標(biāo)口徑不統(tǒng)一,那才會分分鐘罵街。雖然數(shù)據(jù)PM需要熟悉各類數(shù)據(jù)模型、指標(biāo)、數(shù)據(jù)挖掘和數(shù)據(jù)工程的實現(xiàn),但是聚焦點是把它作為一個項目去實現(xiàn),故而不用精通。
數(shù)據(jù)產(chǎn)品經(jīng)理是一個比較新興的崗位,所以有豐富經(jīng)驗的從業(yè)者并不多,我個人認為,還是存在比較大的職業(yè)缺口。當(dāng)然也有其他問題,一是因為新興,部門負責(zé)人本身也沒有想好他們能干什么,不少數(shù)據(jù)PM還從事表哥的工作。二是數(shù)據(jù)產(chǎn)品本身可借鑒的經(jīng)驗不多,像APP產(chǎn)品,可以下載體驗,總歸有一個學(xué)習(xí)的過程。然而用戶畫像、BI、算法策略,都是其他公司的內(nèi)部機密,無從參考,我就遇到不少對用戶畫像實現(xiàn)非常感興趣的數(shù)據(jù)PM。從職業(yè)發(fā)展上看,數(shù)據(jù)分析師做數(shù)據(jù)產(chǎn)品經(jīng)理更合適。普通的產(chǎn)品經(jīng)理,對前端、后端的技術(shù)棧尚未熟悉,何況日新月異的數(shù)據(jù)棧。這個崗位,適合對數(shù)據(jù)特別感興趣,但是數(shù)理天賦不高的職場人,那么以溝通、項目管理和需求規(guī)劃為能力,也不錯。
3.4數(shù)據(jù)工程師
數(shù)據(jù)工程師其實更偏技術(shù),從職業(yè)道路上看,程序員走這條路更開闊。在很多中小型的公司,一方面數(shù)據(jù)是無序的、缺失的、原始的,另外一方面各種業(yè)務(wù)報表又嗷嗷待哺。沒辦法,分析師只能自己擼起袖子,一個人當(dāng)三個人用。兼做數(shù)據(jù)清洗+ETL+BI。經(jīng)歷過的大概都懂,數(shù)據(jù)分析踏上數(shù)據(jù)工程的不歸路如下:
1)每天都要從五六張表上join,那么不妨加工成一張中間表;
2)ETL的依賴關(guān)系越來越復(fù)雜,嘗試用kettle/airflow等框架搞定,弄個DAG美滋滋;
3)運營部門的周報次次都要這幾個指標(biāo),看看能否做一個自動化BI;
4)數(shù)據(jù)量逐日增多,最近T+1的日報需要幾個小時完成,研究下查詢語句的優(yōu)化;
5)查詢語句的優(yōu)化空間也不大了,開始遷移到Hadoop/Spark分布式平臺,新技術(shù)棧的學(xué)習(xí);
6)新平臺,原有的工具也不管用了,某大牛說apache上有工具能解決這個問題,于是閱讀文檔;
7)公司部署了私有化的埋點采集,數(shù)據(jù)缺失比較厲害,業(yè)務(wù)部門天天罵娘,繼續(xù)埋Flume/Kafka的坑;
8)等等…
如果分析師在技術(shù)方面的靈性不錯,那么技能點會往技術(shù)棧方向遷移。從最初的SQL,到了解Hadoop集群、了解presto/impala/spark、了解ELK、了解分布式存儲和NoSQL……這也是一個不錯的發(fā)展方向,因為數(shù)據(jù)挖掘需要了解算法/模型,理論知識要求過高,不少碩士和博士還過來搶飯碗,自己不擅長容易遇到天花板。選擇更底層的工程實現(xiàn)和架構(gòu),也是出路,薪資也不會低于數(shù)據(jù)挖掘/算法專家。部分歸屬到技術(shù)部的數(shù)據(jù)分析師,雖然Title叫數(shù)據(jù)分析(其實應(yīng)該叫數(shù)據(jù)分析開發(fā)工程師),很多工作也是圍繞ETL/DW/BI進行,那么這就是標(biāo)準的數(shù)據(jù)工程路線。部分公司會將機器學(xué)習(xí)模型的部署和實現(xiàn)交給數(shù)據(jù)工程團隊,這要求數(shù)據(jù)工程師熟悉sparkMLlib、Mahout此類框架。數(shù)據(jù)工程師,可以從數(shù)據(jù)分析師的SQL技能,往數(shù)據(jù)的底層收集、存儲、計算、運維拓展。往后發(fā)展則是數(shù)據(jù)總監(jiān)、或者數(shù)據(jù)架構(gòu)師。因為數(shù)據(jù)分析出身,與純技術(shù)棧的程序員比,思考會更貼合業(yè)務(wù),比如指標(biāo)背后的數(shù)據(jù)模型,但是技術(shù)底子的薄弱需要彌補。另外,DBA、BI這些傳統(tǒng)的數(shù)據(jù)庫從業(yè)者,也是能按這條路線進階,或者選擇數(shù)據(jù)產(chǎn)品經(jīng)理方向。
3.5職業(yè)規(guī)劃總結(jié)
以上是大數(shù)據(jù)分析的發(fā)展方向,它們互有關(guān)聯(lián),如果從整個架構(gòu)來看,我們可以將其劃分為數(shù)據(jù)收集—數(shù)據(jù)加工—數(shù)據(jù)運營—數(shù)據(jù)觸達。數(shù)據(jù)收集負責(zé)收集各種各樣的原始數(shù)據(jù),比如用戶何時何地做了什么事情。它依賴于埋點采集系統(tǒng),而埋點采集,需要收集什么類型數(shù)據(jù),往往由數(shù)據(jù)產(chǎn)品經(jīng)理確定規(guī)范(還是看公司,數(shù)據(jù)運營和數(shù)據(jù)分析師也能負責(zé))。收集上來的數(shù)據(jù)需要存儲,往往因為高吞吐量,需要保證數(shù)據(jù)和日志的穩(wěn)定性,會采用Flume+Kafka,如果有實時統(tǒng)計要求,也得考慮流數(shù)據(jù)。這塊則是數(shù)據(jù)工程的范疇,包括原始數(shù)據(jù)的再加工,數(shù)據(jù)清洗,都是專門的數(shù)據(jù)團隊完成。當(dāng)獲得數(shù)據(jù)后,首先第一點是講各種明細數(shù)據(jù)加工業(yè)務(wù)指標(biāo),沒有指標(biāo)不成方圓,這里由數(shù)據(jù)分析師定義的。有了指標(biāo),配合各種數(shù)據(jù)產(chǎn)品輸出,如用戶畫像用戶標(biāo)簽、BI報表,這些數(shù)據(jù)產(chǎn)品都由數(shù)據(jù)PM統(tǒng)籌排期…另外一方面,數(shù)據(jù)挖掘工程師和算法專家則憑各種數(shù)據(jù)建立模型,進行實時或離線運算。
模型可能會預(yù)測用戶會不會購買某個商品,可能是做出一系列的推薦,可能是判斷用戶屬于哪個類型,不一而足。更上面一層是業(yè)務(wù)相關(guān),數(shù)據(jù)分析師會監(jiān)控和分析BI上指標(biāo)的波動、數(shù)據(jù)挖掘工程是通過用戶反饋數(shù)據(jù),衡量算法的優(yōu)劣、數(shù)據(jù)PM按AB測試的結(jié)果改進產(chǎn)品。數(shù)據(jù)工程師保證系統(tǒng)的穩(wěn)定。所有層次一環(huán)扣一環(huán),每個崗位在其中都發(fā)揮特有的作用。數(shù)據(jù)工程偏底層技術(shù),數(shù)據(jù)分析偏上層業(yè)務(wù),數(shù)據(jù)挖掘和數(shù)據(jù)產(chǎn)品處于中間形態(tài)。不同公司雖然業(yè)務(wù)形態(tài)不一致,架構(gòu)會有差異,但是職責(zé)不會偏差太大。這也是數(shù)據(jù)分析為什么會有四個方向。
能 力:
1、 一定要懂點戰(zhàn)略、才能結(jié)合商業(yè);
2、 一定要漂亮的presentation、才能buying;
3、一定要有g(shù)lobal view、才能打單;
4、 一定要懂業(yè)務(wù)、才能結(jié)合市場;
5、 一定要專幾種工具、才能干活;
6、 一定要學(xué)好、才能有效率;
7、 一定要有強悍理論基礎(chǔ)、才能入門;
8、 一定要努力、 才能賺錢;最重要的:
9、 一定要務(wù)實、才有reputation;
目標(biāo):
1-做過多少個項目?
2-業(yè)務(wù)背景有哪些,是否跨行業(yè)?
3-做過多少種類型的模型?做了多少個模型?
4-基于模型做過多少次完整的marketing閉環(huán)?
填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc