相對(duì)大數(shù)據(jù)科學(xué)家DS《大數(shù)據(jù)分析科學(xué)家DS職能要求》,大數(shù)據(jù)工程師DE就比較雜了,做的事情也多。當(dāng)時(shí)中國(guó)data team 就3個(gè),2個(gè)大數(shù)據(jù)科學(xué)家DS,大數(shù)據(jù)工程師DE也就一個(gè),DE的崗位有人認(rèn)為是打雜的。因?yàn)?a href="http://m.5wd995.cn/data/1748.html" target="_blank">大數(shù)據(jù)工程師DS只負(fù)責(zé)算法輸出。你們想想,一個(gè)項(xiàng)目光有算法能行嗎?誰(shuí)去執(zhí)行它,它要如何被外部調(diào)用?臟數(shù)據(jù)的清洗工作誰(shuí)來(lái)做?還有很多很多的事情需要你考慮。
一、清洗數(shù)據(jù)
首先大數(shù)據(jù)工程師DE最重要的事情就是輔助DS清洗數(shù)據(jù),我們叫data cleaning。因?yàn)楹芏鄷r(shí)候從外部拿到的數(shù)據(jù),無(wú)論是買來(lái)的,爬來(lái)的,還是已有的,都是原始數(shù)據(jù),大數(shù)據(jù)工程師DS需要對(duì)這部分?jǐn)?shù)據(jù)做一個(gè)預(yù)處理,否則很容易污染樣本數(shù)據(jù)。DE的工作,很重要的一部分就是去清洗數(shù)據(jù)。至于規(guī)則是DE和DS討論的,沒(méi)有一個(gè)固定的模版。
二、獲得數(shù)據(jù)來(lái)源
剛剛說(shuō)到的數(shù)據(jù)來(lái)源,有一個(gè)是爬來(lái)的,所以你還得會(huì)爬蟲(chóng)。關(guān)于爬蟲(chóng)部分的內(nèi)容我會(huì)另起一篇,給大家好好講講。當(dāng)時(shí)我想做,但沒(méi)有做的一部分就是爬蟲(chóng),因?yàn)槿烙泻芏喙_(kāi)數(shù)據(jù)是可以去獲取的,當(dāng)時(shí)我想做的是分類,包括清洗、過(guò)濾、入庫(kù)、展示。沒(méi)來(lái)得及做。
如果你會(huì)爬蟲(chóng),DS就會(huì)很高興了,因?yàn)樗麄儾挥脼闆](méi)有數(shù)據(jù)犯愁了,你要知道,對(duì)于DS來(lái)說(shuō),數(shù)據(jù)的數(shù)量和質(zhì)量都是他們關(guān)心的東西。而老板更是了,因?yàn)镈S要數(shù)據(jù),他就要花錢(qián)去買,如果你是DE你說(shuō)你可以嘗試爬爬看,那老板對(duì)你什么看法?
三、后端開(kāi)發(fā)
那你如果還會(huì)做后端開(kāi)發(fā)就更好了,會(huì)自動(dòng)化建設(shè)那就更好了。自動(dòng)化建設(shè)一般老板是沒(méi)有要求做,若你想著提升生產(chǎn)效率。這樣可以提升工作效率,任務(wù)從一周時(shí)間縮減到1-2分鐘,只需要改配置就可以了,當(dāng)然這個(gè)過(guò)程是非常痛苦的,需要你前前后后與DS對(duì)需求,review代碼。
服務(wù)端代碼寫(xiě)好后,我們還可以做前端展示,對(duì)于vendor來(lái)說(shuō),他們不關(guān)心數(shù)據(jù)怎么來(lái)的,他們想看直接的東西dashboard。
所以對(duì)于大數(shù)據(jù)工程師DE來(lái)說(shuō),做的事情可以很多。那python就是我們的武器庫(kù)了,武器是爬蟲(chóng)、數(shù)據(jù)清洗、后端、前端等等,要什么拿什么,就看你有多少了。而武器庫(kù)里還可以加上kettle、tableau、informatica等等,這些只是附加項(xiàng)了。參加大數(shù)據(jù)分析培訓(xùn)機(jī)構(gòu)4個(gè)月培訓(xùn)應(yīng)對(duì)這個(gè)工作,信手拈來(lái)。
工作職責(zé)
1、參與大數(shù)據(jù)分析平臺(tái)的規(guī)劃和建設(shè)
2、協(xié)助相關(guān)業(yè)務(wù)數(shù)據(jù)服務(wù)接口的制定
3、負(fù)責(zé)大數(shù)據(jù)處理分析平臺(tái)的服務(wù)框架的設(shè)計(jì)與開(kāi)發(fā)
要求:
1. 重點(diǎn)本科或以上學(xué)歷,計(jì)算機(jī)、數(shù)學(xué)、通信等相關(guān)專業(yè);
2. 有海量數(shù)據(jù)處理和并行計(jì)算開(kāi)發(fā)經(jīng)驗(yàn)者,熟悉 Hadoop生態(tài),有實(shí)際大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn);
3. 扎實(shí)的數(shù)據(jù)結(jié)構(gòu)及算法功底,優(yōu)秀的工程實(shí)現(xiàn)能力;
4. 了解并掌握MySQL/Hive/Spark的使用;
5. 精通設(shè)計(jì)模式、設(shè)計(jì)原則、面向?qū)ο缶幊涕_(kāi)發(fā),精通可擴(kuò)展分布式編程經(jīng)驗(yàn);
6. 優(yōu)秀的分析問(wèn)題解決問(wèn)題能力、學(xué)習(xí)能力、團(tuán)隊(duì)合作意識(shí);
加分項(xiàng):
1. 推薦系統(tǒng)、算法調(diào)優(yōu)經(jīng)驗(yàn)
2. 有海量大數(shù)據(jù)開(kāi)發(fā)經(jīng)驗(yàn)
3. 有 Hadoop/Spark/HBase/Kafka/Storm/Lucene/Elasticsearch 深入源代碼分析經(jīng)驗(yàn)
4. 熟悉機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、分布式計(jì)算
填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc