旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析面試題庫—基本的大數(shù)據(jù)分析面試問題

大數(shù)據(jù)分析面試題庫—基本的大數(shù)據(jù)分析面試問題

時間:2019-12-25來源:m.5wd995.cn點擊量:作者:Sissi
時間:2019-12-25點擊量:作者:Sissi




  每當您去進行大數(shù)據(jù)分析面試時,面試官都會問一些基本的問題。無論您是大數(shù)據(jù)分析領域的新手還是經(jīng)驗豐富的人,都需要具備基本知識。因此,AAA教育整理了一些常見的基本大數(shù)據(jù)分析面試問題,和大家分享一下:
 

  一、您對“大數(shù)據(jù)分析”一詞有什么了解?
 

  答: 大數(shù)據(jù)分析是與復雜和大型數(shù)據(jù)集相關的術語。關系數(shù)據(jù)庫無法處理大數(shù)據(jù)分析,這就是為什么使用特殊的工具和方法對大量數(shù)據(jù)執(zhí)行操作的原因。大數(shù)據(jù)分析使公司能夠更好地了解其業(yè)務,并幫助他們從定期收集的非結(jié)構(gòu)化和原始數(shù)據(jù)中獲取有意義的信息。大數(shù)據(jù)分析還使公司能夠在數(shù)據(jù)的支持下做出更好的業(yè)務決策。


二、大數(shù)據(jù)分析的五個V是什么?
 

  答:大數(shù)據(jù)分析的五個V如下:

  卷–卷表示卷的數(shù)量,即以高速率增長的數(shù)據(jù)量,即以PB為單位的數(shù)據(jù)量

  速度–速度是數(shù)據(jù)增長的速度。社交媒體在增長數(shù)據(jù)的速度中起著重要作用。

  多樣性–多樣性是指不同的數(shù)據(jù)類型,即各種數(shù)據(jù)格式,例如文本,音頻,視頻等。

  準確性–準確性是指可用數(shù)據(jù)的不確定性。由于大量數(shù)據(jù)帶來不完整和不一致,因此會出現(xiàn)準確性。

  價值–價值是指將數(shù)據(jù)轉(zhuǎn)化為價值。通過將訪問的大數(shù)據(jù)分析轉(zhuǎn)化為價值,企業(yè)可以創(chuàng)造收入。


大數(shù)據(jù)分析
5 V的大數(shù)據(jù)分析
 

  注意: 這是大數(shù)據(jù)分析采訪中提出的基本且重要的問題之一。如果您看到面試官有興趣了解更多信息,則可以選擇詳細解釋五個V。但是,如果詢問“大數(shù)據(jù)分析”一詞,甚至可以提及這些名稱。
 

三、告訴我們大數(shù)據(jù)分析和Hadoop之間的關系。
 

  答: 大數(shù)據(jù)分析和Hadoop幾乎是同義詞。隨著大數(shù)據(jù)分析的興起,專門用于大數(shù)據(jù)分析操作的Hadoop框架也開始流行。專業(yè)人士可以使用該框架來分析大數(shù)據(jù)分析并幫助企業(yè)做出決策。

  注意: 在大數(shù)據(jù)分析采訪中通常會問這個問題。 Ÿ歐可以進一步去回答這個問題,并試圖解釋的Hadoop的主要組成部分。
 

四、大數(shù)據(jù)分析分析如何有助于增加業(yè)務收入?
 

  答:大數(shù)據(jù)分析對于企業(yè)來說已經(jīng)變得非常重要。它可以幫助企業(yè)與眾不同,并增加收入。通過預測分析,大數(shù)據(jù)分析為企業(yè)提供了定制的建議。此外,大數(shù)據(jù)分析使企業(yè)能夠根據(jù)客戶的需求和偏好推出新產(chǎn)品。這些因素使企業(yè)獲得了更多收入,因此公司正在使用大數(shù)據(jù)分析。通過實施大數(shù)據(jù)分析,公司的收入可能會大幅增長5-20%。一些使用大數(shù)據(jù)分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,F(xiàn)acebook,Twitter,美國銀行等。
 

五、解釋部署大數(shù)據(jù)分析解決方案應遵循的步驟。
 

  答:以下是部署大數(shù)據(jù)分析解決方案的三個步驟:

  1、資料提取

  部署大數(shù)據(jù)分析解決方案的第一步是數(shù)據(jù)攝取,即從各種來源提取數(shù)據(jù)。數(shù)據(jù)源可以是Salesforce之類的CRM,SAP之類的企業(yè)資源計劃系統(tǒng),MySQL之類的RDBMS或任何其他日志文件,文檔,社交媒體源等??梢酝ㄟ^批處理作業(yè)或?qū)崟r流來提取數(shù)據(jù)。然后將提取的數(shù)據(jù)存儲在HDFS中。


大數(shù)據(jù)分析
部署大數(shù)據(jù)分析解決方案的步驟
 

  2、數(shù)據(jù)存儲

  提取數(shù)據(jù)后,下一步是存儲提取的數(shù)據(jù)。數(shù)據(jù)可以存儲在HDFS或NoSQL數(shù)據(jù)庫(即HBase)中。HDFS存儲適用于順序訪問,而HBase適用于隨機讀取/寫入訪問。

  3、數(shù)據(jù)處理

  部署大數(shù)據(jù)分析解決方案的最后一步是數(shù)據(jù)處理。數(shù)據(jù)通過Spark,MapReduce,Pig等處理框架之一進行處理。
 

六、定義HDFS和YARN的各個組件
 

  答: HDFS的兩個主要組成部分是-

  NameNode –這是主節(jié)點,用于處理HDFS中數(shù)據(jù)塊的元數(shù)據(jù)信息

  DataNode / Slave節(jié)點–這是一個充當從節(jié)點存儲數(shù)據(jù)以供NameNode處理和使用的節(jié)點

  除了滿足客戶端請求之外,NameNode還執(zhí)行以下兩個角色之一:

  CheckpointNode –它運行在與NameNode不同的主機上

  BackupNode-這是一個只讀的NameNode,其中包含文件系統(tǒng)元數(shù)據(jù)信息(不包括塊位置)

 


大數(shù)據(jù)分析


  YARN的兩個主要組成部分是:

  ResourceManager –此組件接收處理請求,并根據(jù)處理需要相應地分配給相應的NodeManager。

  NodeManager –在每個數(shù)據(jù)節(jié)點上執(zhí)行任務
 

七、為什么將Hadoop用于大數(shù)據(jù)分析?
 

  答: 由于數(shù)據(jù)分析已成為業(yè)務的關鍵參數(shù)之一,因此,企業(yè)正在處理大量的結(jié)構(gòu)化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。在Hadoop以其以下功能為主要角色的情況下,分析非結(jié)構(gòu)化數(shù)據(jù)非常困難

  存儲

  處理中

  數(shù)據(jù)采集

  此外,Hadoop是開源的,并且在商品硬件上運行。因此,它是企業(yè)的成本效益解決方案。
 

八、什么是fsck?
 

  答: fsck代表文件系統(tǒng)檢查。這是HDFS使用的命令。此命令用于檢查不一致以及文件中是否存在任何問題。例如,如果文件缺少任何塊,則HDFS將通過此命令得到通知。
 

九、NAS(網(wǎng)絡附加存儲)和HDFS之間的主要區(qū)別是什么?
 

  答: NAS(網(wǎng)絡附加存儲)和HDFS之間的主要區(qū)別–

  HDFS在計算機集群上運行,而NAS在單臺計算機上運行。因此,數(shù)據(jù)冗余是HDFS中的常見問題。相反,對于NAS,復制協(xié)議是不同的。因此,數(shù)據(jù)冗余的機會要少得多。

  對于HDFS,數(shù)據(jù)將作為數(shù)據(jù)塊存儲在本地驅(qū)動器中。對于NAS,它存儲在專用硬件中。
 

十、格式化NameNode的命令是什么?
 

  答案: $ hdfs namenode -format




 

預約申請免費試聽課

填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖