很多初學(xué)者,對(duì)大數(shù)據(jù)分析的概念都是模糊不清的,大數(shù)據(jù)分析是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,很多人對(duì)于大數(shù)據(jù)分析師的印象就是坐在辦公室對(duì)著電腦噼里啪啦的敲鍵盤,跟程序員差不多,這種想法是錯(cuò)誤的,其實(shí)大數(shù)據(jù)分析師是一個(gè)很高大上的職業(yè),大數(shù)據(jù)分析師通過(guò)獲取必要的數(shù)據(jù),分析這些數(shù)據(jù),然后從數(shù)據(jù)中發(fā)現(xiàn)一些問(wèn)題提出自己的想法,這就是一個(gè)大數(shù)據(jù)分析師的基本工作內(nèi)容。
大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個(gè)環(huán)節(jié)。從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:
數(shù)據(jù)采集 -> 數(shù)據(jù)清洗 -> 數(shù)據(jù)存儲(chǔ) -> 數(shù)據(jù)分析統(tǒng)計(jì) -> 數(shù)據(jù)可視化 等幾個(gè)方面
大數(shù)據(jù)分析工作內(nèi)容當(dāng)然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來(lái)實(shí)現(xiàn)上面幾個(gè)方面的功能。具體說(shuō)說(shuō)如下:
一、數(shù)據(jù)采集
業(yè)務(wù)系統(tǒng)的埋點(diǎn)代碼時(shí)刻會(huì)產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實(shí)現(xiàn)分散日志的聚合,即采集。
二、數(shù)據(jù)清洗
原始的日志,數(shù)據(jù)是千奇百怪的
一些字段可能會(huì)有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的"數(shù)據(jù)分析統(tǒng)計(jì)"能拿到比較高質(zhì)量的數(shù)據(jù),需要對(duì)這些記錄進(jìn)行過(guò)濾或者字段數(shù)據(jù)回填。
一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時(shí)也為了節(jié)省存儲(chǔ)開(kāi)銷,需要?jiǎng)h除這些多余的字段信息。
一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字符替換。
三、數(shù)據(jù)存儲(chǔ)
清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉(cāng)庫(kù)(Hive),供下游做離線分析。如果下游的"數(shù)據(jù)分析統(tǒng)計(jì)"對(duì)實(shí)時(shí)性要求比較高,則可以把日志記錄入到kafka。
四、大數(shù)據(jù)分析統(tǒng)計(jì)
大數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費(fèi)來(lái)自上游的數(shù)據(jù)。其實(shí)就是從日志記錄里頭統(tǒng)計(jì)出各種各樣的報(bào)表數(shù)據(jù),簡(jiǎn)單的報(bào)表統(tǒng)計(jì)可以用sql在kylin或者h(yuǎn)ive統(tǒng)計(jì),復(fù)雜的報(bào)表就需要在代碼層面用Spark、Storm做統(tǒng)計(jì)分析。一些公司好像會(huì)有個(gè)叫BI的崗位是專門做這一塊的。
五、數(shù)據(jù)可視化
用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游"大數(shù)據(jù)分析統(tǒng)計(jì)"的數(shù)據(jù)。一般公司的某些決策會(huì)參考這些圖表里頭的數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)平臺(tái)(如CDH、FusionInsight等)搭建與維護(hù),也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分。
大數(shù)據(jù)分析師工作的流程簡(jiǎn)單分為兩部分,第一部分就是獲取數(shù)據(jù),第二部分就是對(duì)數(shù)據(jù)進(jìn)行處理。那么怎么獲得數(shù)據(jù)呢?首先,我們要知道,獲取相關(guān)的數(shù)據(jù),是數(shù)據(jù)分析的前提。每個(gè)企業(yè),都有自己的一套存儲(chǔ)機(jī)制。因此,基礎(chǔ)的SQL語(yǔ)言是必須的。具備基本SQL基礎(chǔ),再學(xué)習(xí)下其中細(xì)節(jié)的語(yǔ)法,基本就可以到很多數(shù)據(jù)了。當(dāng)每個(gè)需求明確以后,都要根據(jù)需要,把相關(guān)的數(shù)據(jù)獲取到,做基礎(chǔ)數(shù)據(jù)。
獲得了數(shù)據(jù)以后,才能夠進(jìn)行數(shù)據(jù)處理工作。獲取數(shù)據(jù),把數(shù)據(jù)處理成自己想要的東西,是一個(gè)關(guān)鍵點(diǎn)。很多時(shí)候,有了數(shù)據(jù)不是完成,而是分析的開(kāi)始。大數(shù)據(jù)分析師最重要的工作就是把數(shù)據(jù)根據(jù)需求處理好,只有數(shù)據(jù)跟需求結(jié)合起來(lái),才能發(fā)揮數(shù)據(jù)的價(jià)值,看到需求的問(wèn)題和本質(zhì)所在。如果連數(shù)據(jù)都沒(méi)處理好,何談從數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題呢?
就目前而言,大數(shù)據(jù)分析日益成為研究行業(yè)的重要研究目標(biāo)。面對(duì)其高數(shù)據(jù)量、多維度與異構(gòu)化的特點(diǎn),以及分析方法思路的擴(kuò)展,傳統(tǒng)統(tǒng)計(jì)工具已經(jīng)難以應(yīng)對(duì)。所以我們要使用專業(yè)的大數(shù)據(jù)分析工具。大數(shù)據(jù)分析工具都有Excel、SPSS、SAS等工具。Excel、SPSS、SAS 這三者對(duì)于大數(shù)據(jù)分析師來(lái)說(shuō)并不陌生。但是這三種大數(shù)據(jù)分析工具應(yīng)對(duì)的數(shù)據(jù)分析的場(chǎng)景并不是相同的,一般來(lái)說(shuō),SPSS 輕量、易于使用,但功能相對(duì)較少,適合常規(guī)基本統(tǒng)計(jì)分析。而SPSS和SAS作為商業(yè)統(tǒng)計(jì)軟件,提供研究常用的經(jīng)典統(tǒng)計(jì)分析處理。由于SAS 功能豐富而強(qiáng)大,且支持編程擴(kuò)展其分析能力,適合復(fù)雜與高要求的統(tǒng)計(jì)性分析。
以上的內(nèi)容就是AAA教育小編為大家講解的大數(shù)據(jù)分析師的工作內(nèi)容了,大數(shù)據(jù)分析師的工作是比較繁瑣的,但是也是比較高大上的。大家在了解大數(shù)據(jù)分析工作內(nèi)容的時(shí)候可以參考這篇文章,這樣可以更好的理解大數(shù)據(jù)分析行業(yè),最后感謝大家的閱讀。
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc