最近寫了好多大數(shù)據(jù)分析的文章,《大數(shù)據(jù)分析十八般工具》、《剖析大數(shù)據(jù)分析就業(yè)前景》、《大數(shù)據(jù)分析是什么》、《大數(shù)據(jù)分析12大就業(yè)方向》等,好多同學問我大數(shù)據(jù)分析流程是什么,要小編姐姐整理一下,分享出來,今天我們就說說大數(shù)據(jù)分析流程是什么?
1.1 數(shù)據(jù)處理流程
該項目是一個純粹的大數(shù)據(jù)分析項目,其整體流程基本上就是依據(jù)數(shù)據(jù)的處理流程進行,依此有以下幾個大的步驟:
1) 數(shù)據(jù)采集
首先,通過頁面嵌入JS代碼的方式獲取用戶訪問行為,并發(fā)送到web服務的后臺記錄日志;然后,將各服務器上生成的點擊流日志通過實時或批量的方式匯聚到HDFS文件系統(tǒng)中;一個綜合分析系統(tǒng),數(shù)據(jù)源可能不僅包含點擊流數(shù)據(jù),還有數(shù)據(jù)庫中的業(yè)務數(shù)據(jù)(如用戶信息、商品信息、訂單信息等)及對分析有益的外部數(shù)據(jù)。
2) 數(shù)據(jù)預處理
通過mapreduce程序?qū)Σ杉降狞c擊流數(shù)據(jù)進行預處理,比如清洗,格式整理,濾除臟數(shù)據(jù)等
3) 數(shù)據(jù)入庫
將預處理之后的數(shù)據(jù)導入到HIVE倉庫中相應的庫和表中
4) 數(shù)據(jù)分析
項目的核心內(nèi)容,即根據(jù)需求開發(fā)ETL分析語句,得出各種統(tǒng)計結果
5) 數(shù)據(jù)展現(xiàn)
將分析所得數(shù)據(jù)進行可視化
1.2 項目結構
由于本項目是一個純粹大數(shù)據(jù)分析項目,其整體結構亦跟分析流程匹配,并沒有特別復雜的結構,如下圖:
其中,需要強調(diào)的是:系統(tǒng)的大數(shù)據(jù)分析不是一次性的,而是按照一定的時間頻率反復計算,因而整個處理鏈條中的各個環(huán)節(jié)需要按照一定的先后依賴關系緊密銜接,即涉及到大量任務單元的管理調(diào)度,所以,項目中需要添加一個任務調(diào)度模塊
1.3 數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)的目的是將分析所得的數(shù)據(jù)進行可視化,以便運營決策人員能更方便地獲取數(shù)據(jù),更快更簡單地理解數(shù)據(jù),下面是對獨立訪客的數(shù)據(jù)分析展現(xiàn)示例:
二、大數(shù)據(jù)分析的5個方面
1.、Analytic Visualizations(可視化分析)
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結果。
2.、Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
3.、Predictive Analytic Capabilities(預測性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結果做出一些預測性的判斷。
4.、Semantic Engines(語義引擎)
我們知道由于非結構化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設計成能夠從“文檔”中智能提取信息。
5.、Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數(shù)據(jù)進行處理可以保證一個預先定義好的高質(zhì)量的分析結果。
假如大數(shù)據(jù)真的是下一個重要的技術革新的話,我們最好把精力關注在大數(shù)據(jù)分析能給我們帶來的好處,而不僅僅是挑戰(zhàn)。
6、數(shù)據(jù)存儲,數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進行存儲所建立起來的關系型數(shù)據(jù)庫。在商業(yè)智能系統(tǒng)的設計中,數(shù)據(jù)倉庫的構建是關鍵,是商業(yè)智能系統(tǒng)的基礎,承擔對業(yè)務系統(tǒng)數(shù)據(jù)整合的任務,為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉換和加載(ETL),并按主題對數(shù)據(jù)進行查詢和訪問,為聯(lián)機數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺。
三、大數(shù)據(jù)項目開發(fā)步驟:
第一步:需求:數(shù)據(jù)的輸入和數(shù)據(jù)的產(chǎn)出;
第二步:數(shù)據(jù)量、處理效率、可靠性、可維護性、簡潔性;
第三步:數(shù)據(jù)建模;
第四步:架構設計:數(shù)據(jù)怎么進來,輸出怎么展示,最最重要的是處理流出數(shù)據(jù)的架構;
第五步:再次思考大數(shù)據(jù)系統(tǒng)和企業(yè)IT系統(tǒng)的交互;
第六步:最終確定選擇、規(guī)范等;
第七步:基于數(shù)據(jù)建模寫基礎服務代碼;
第八步:正式編寫第一個模塊;
第九步:實現(xiàn)其它的模塊,并完成測試和調(diào)試等;
第十步:測試和驗收;
從流程角度上看,整個大數(shù)據(jù)分析處理可分成4個主要步驟。
第一步是數(shù)據(jù)的搜集與存儲;
第二步是通過數(shù)據(jù)分析技術對數(shù)據(jù)進行探索性研究,包括無關數(shù)據(jù)的剔除,即數(shù)據(jù)清洗,與尋找數(shù)據(jù)的模式探索數(shù)據(jù)的價值所在;
第三步為在基本數(shù)據(jù)分析的基礎上,選擇和開發(fā)數(shù)據(jù)分析算法,對數(shù)據(jù)進行建模。從數(shù)據(jù)中提取有價值的信息,這其實是真正的阿里云大數(shù)據(jù)的學習過程。這當中會涉及很多算法和技術,比如機器學習算法等;
最后一步是對模型的部署和應用,即把研究出來的模型應用到生產(chǎn)環(huán)境之中。
1) 數(shù)據(jù)采集:定制開發(fā)采集程序,或使用開源框架flume
2) 數(shù)據(jù)預處理:定制開發(fā)mapreduce程序運行于hadoop集群
3) 數(shù)據(jù)倉庫技術:基于hadoop之上的Hive
4) 數(shù)據(jù)導出:基于hadoop的sqoop數(shù)據(jù)導入導出工具
5) 數(shù)據(jù)可視化:定制開發(fā)web程序或使用kettle等產(chǎn)品
五、案例分享
1、提出需求-需要和多個部門負責人進行協(xié)商:關于項目的可行性分析
2、需求分析-進行需求調(diào)研(研究競品)、市場調(diào)研,如果是給甲方做產(chǎn)品,需要和甲方協(xié)商需求細則
3、技術選型-需要多個開發(fā)部門的人員參與協(xié)商:考慮的角度:數(shù)據(jù)的生成、數(shù)據(jù)采集、源數(shù)據(jù)的存儲、數(shù)據(jù)清洗、消息中間件、數(shù)據(jù)分析引擎、結果數(shù)據(jù)的存儲、數(shù)據(jù)的展示
4、可行性分析-預研工作:搭建技術平臺,測試可行性
5、指標分析-需求和指標之間的轉換,需求的細化
6、數(shù)據(jù)對接-數(shù)據(jù)采集、清洗、源數(shù)據(jù)存儲、中間件(項目前期是一個非常重要而且有難度的工作)
7、數(shù)據(jù)分析-把指標轉換為代碼的過程
8、結果的存儲
9、數(shù)據(jù)展示-運營部門
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc