旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析工程師DE職能要求

大數(shù)據(jù)分析工程師DE職能要求

時間:2019-07-04來源:lb577.com點擊量:作者:Sissi
時間:2019-07-04點擊量:作者:Sissi


  相對大數(shù)據(jù)科學家DS大數(shù)據(jù)分析科學家DS職能要求》,大數(shù)據(jù)工程師DE就比較雜了,做的事情也多。當時中國data team 就3個,2個大數(shù)據(jù)科學家DS,大數(shù)據(jù)工程師DE也就一個,DE的崗位有人認為是打雜的。因為大數(shù)據(jù)工程師DS只負責算法輸出。你們想想,一個項目光有算法能行嗎?誰去執(zhí)行它,它要如何被外部調(diào)用?臟數(shù)據(jù)的清洗工作誰來做?還有很多很多的事情需要你考慮。
 

一、清洗數(shù)據(jù)
 

  首先大數(shù)據(jù)工程師DE最重要的事情就是輔助DS清洗數(shù)據(jù),我們叫data cleaning。因為很多時候從外部拿到的數(shù)據(jù),無論是買來的,爬來的,還是已有的,都是原始數(shù)據(jù),大數(shù)據(jù)工程師DS需要對這部分數(shù)據(jù)做一個預處理,否則很容易污染樣本數(shù)據(jù)。DE的工作,很重要的一部分就是去清洗數(shù)據(jù)。至于規(guī)則是DE和DS討論的,沒有一個固定的模版。
 

二、獲得數(shù)據(jù)來源
 

  剛剛說到的數(shù)據(jù)來源,有一個是爬來的,所以你還得會爬蟲。關于爬蟲部分的內(nèi)容我會另起一篇,給大家好好講講。當時我想做,但沒有做的一部分就是爬蟲,因為全美有很多公開數(shù)據(jù)是可以去獲取的,當時我想做的是分類,包括清洗、過濾、入庫、展示。沒來得及做。
 

  如果你會爬蟲,DS就會很高興了,因為他們不用為沒有數(shù)據(jù)犯愁了,你要知道,對于DS來說,數(shù)據(jù)的數(shù)量和質(zhì)量都是他們關心的東西。而老板更是了,因為DS要數(shù)據(jù),他就要花錢去買,如果你是DE你說你可以嘗試爬爬看,那老板對你什么看法?
 

三、后端開發(fā)
 

  那你如果還會做后端開發(fā)就更好了,會自動化建設那就更好了。自動化建設一般老板是沒有要求做,若你想著提升生產(chǎn)效率。這樣可以提升工作效率,任務從一周時間縮減到1-2分鐘,只需要改配置就可以了,當然這個過程是非常痛苦的,需要你前前后后與DS對需求,review代碼。

  服務端代碼寫好后,我們還可以做前端展示,對于vendor來說,他們不關心數(shù)據(jù)怎么來的,他們想看直接的東西dashboard。

  所以對于大數(shù)據(jù)工程師DE來說,做的事情可以很多。那python就是我們的武器庫了,武器是爬蟲、數(shù)據(jù)清洗、后端、前端等等,要什么拿什么,就看你有多少了。而武器庫里還可以加上kettle、tableau、informatica等等,這些只是附加項了。參加大數(shù)據(jù)分析培訓機構4個月培訓應對這個工作,信手拈來。

 

四、大數(shù)據(jù)工程師DE職能要求

  工作職責

  1、參與大數(shù)據(jù)分析平臺的規(guī)劃和建設

  2、協(xié)助相關業(yè)務數(shù)據(jù)服務接口的制定

  3、負責大數(shù)據(jù)處理分析平臺的服務框架的設計與開發(fā)

  要求:

  1. 重點本科或以上學歷,計算機、數(shù)學、通信等相關專業(yè);

  2. 有海量數(shù)據(jù)處理和并行計算開發(fā)經(jīng)驗者,熟悉 Hadoop生態(tài),有實際大數(shù)據(jù)項目經(jīng)驗;

  3. 扎實的數(shù)據(jù)結構及算法功底,優(yōu)秀的工程實現(xiàn)能力;

  4. 了解并掌握MySQL/Hive/Spark的使用;

  5. 精通設計模式、設計原則、面向?qū)ο缶幊涕_發(fā),精通可擴展分布式編程經(jīng)驗;

  6. 優(yōu)秀的分析問題解決問題能力、學習能力、團隊合作意識;

  加分項:

  1. 推薦系統(tǒng)、算法調(diào)優(yōu)經(jīng)驗

  2. 有海量大數(shù)據(jù)開發(fā)經(jīng)驗

  3. 有 Hadoop/Spark/HBase/Kafka/Storm/Lucene/Elasticsearch 深入源代碼分析經(jīng)驗

  4. 熟悉機器學習、數(shù)據(jù)挖掘、分布式計算

大數(shù)據(jù)工程師DE職能要求

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖