旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁(yè) > 熱門(mén)文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析數(shù)據(jù)清洗的價(jià)值和意義

大數(shù)據(jù)分析數(shù)據(jù)清洗的價(jià)值和意義

時(shí)間:2020-04-29來(lái)源:m.5wd995.cn點(diǎn)擊量:作者:Sissi
時(shí)間:2020-04-29點(diǎn)擊量:作者:Sissi



  在這個(gè)由物聯(lián)網(wǎng)(IoT),社交媒體,邊緣計(jì)算以及越來(lái)越多的計(jì)算能力(如量子計(jì)算)支持的數(shù)字時(shí)代,數(shù)據(jù)可能是任何企業(yè)最有價(jià)值的資產(chǎn)之一。正確(或不正確)的數(shù)據(jù)管理將對(duì)企業(yè)的成功產(chǎn)生巨大影響。換句話說(shuō),它可以成敗一個(gè)企業(yè)。
 

  這就是原因,為了利用這些巨大的數(shù)據(jù),無(wú)論大小,企業(yè)都在使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),以便他們可以建立有用的客戶群,增加銷(xiāo)售量并提高品牌忠誠(chéng)度。
 

  但是在大多數(shù)情況下,由于具有許多收集源和各種格式(結(jié)構(gòu)化和非結(jié)構(gòu)化),數(shù)據(jù)可能是不準(zhǔn)確,不一致和冗余的。
 

  通過(guò)向機(jī)器學(xué)習(xí)算法提供具有此類(lèi)異常的數(shù)據(jù),我們是否可以及時(shí),全面地訪問(wèn)相關(guān)信息?

 

大數(shù)據(jù)分析

  不,當(dāng)然不!首先需要清除此類(lèi)數(shù)據(jù)。
 

  這就是數(shù)據(jù)清理的地方!
 

  數(shù)據(jù)清理是建立有效的機(jī)器學(xué)習(xí)模型的第一步,也是最重要的一步。至關(guān)重要!
 

  簡(jiǎn)而言之,如果尚未清理和預(yù)處理數(shù)據(jù),則機(jī)器學(xué)習(xí)模型將無(wú)法正常工作。
 

  盡管我們經(jīng)常認(rèn)為數(shù)據(jù)科學(xué)家將大部分時(shí)間都花在修補(bǔ)ML算法和模型上,但實(shí)際情況有所不同。大多數(shù)數(shù)據(jù)科學(xué)家花費(fèi)大約80%的時(shí)間來(lái)清理數(shù)據(jù)。
 

  為什么?由于ML中的一個(gè)簡(jiǎn)單事實(shí),
 

  換句話說(shuō),如果您具有正確清理的數(shù)據(jù)集,則簡(jiǎn)單的算法甚至可以從數(shù)據(jù)中獲得令人印象深刻的見(jiàn)解。
 

  我們將在本文中涉及與數(shù)據(jù)清理相關(guān)的一些重要問(wèn)題:
 

  a.什么是數(shù)據(jù)清理?

  b.為什么需要它?

  c.數(shù)據(jù)清理有哪些常見(jiàn)步驟?

  d.與數(shù)據(jù)清理相關(guān)的挑戰(zhàn)是什么?

  e.哪些公司提供數(shù)據(jù)清理服務(wù)?
 

  讓我們一起開(kāi)始旅程,了解數(shù)據(jù)清理!
 

  數(shù)據(jù)清洗到底是什么?
 

  數(shù)據(jù)清理,也稱為數(shù)據(jù)清理,用于檢測(cè)和糾正(或刪除)記錄集,表或數(shù)據(jù)庫(kù)中的不準(zhǔn)確或損壞的記錄。廣義上講,數(shù)據(jù)清除或清除是指識(shí)別不正確,不完整,不相關(guān),不準(zhǔn)確或其他有問(wèn)題(“臟”)的數(shù)據(jù)部分,然后替換,修改或刪除該臟數(shù)據(jù)。
 

  通過(guò)有效的數(shù)據(jù)清理,所有數(shù)據(jù)集都應(yīng)該沒(méi)有任何在分析期間可能出現(xiàn)問(wèn)題的錯(cuò)誤。
 

  為什么需要數(shù)據(jù)清理?
 

  通常認(rèn)為數(shù)據(jù)清理是無(wú)聊的部分。但這是一個(gè)有價(jià)值的過(guò)程,可以幫助企業(yè)節(jié)省時(shí)間并提高效率。
 

  這有點(diǎn)像準(zhǔn)備長(zhǎng)假。我們可能不喜歡準(zhǔn)備部分,但我們可以提前收緊細(xì)節(jié),以免遭受這一噩夢(mèng)的困擾。
 

  我們只需要這樣做,否則我們就無(wú)法開(kāi)始玩樂(lè)。就這么簡(jiǎn)單!
 

  讓我們來(lái)看一些由于“臟”數(shù)據(jù)而可能在各個(gè)領(lǐng)域出現(xiàn)的問(wèn)題的示例:
 

  a.假設(shè)廣告系列使用的是低質(zhì)量的數(shù)據(jù)并以不相關(guān)的報(bào)價(jià)吸引用戶,則該公司不僅會(huì)降低客戶滿意度,而且會(huì)錯(cuò)失大量銷(xiāo)售機(jī)會(huì)。

  b.如果銷(xiāo)售代表由于沒(méi)有準(zhǔn)確的數(shù)據(jù)而未能聯(lián)系潛在客戶,則可以了解對(duì)銷(xiāo)售的影響。

  c.任何規(guī)模大小的在線企業(yè)都可能因不符合其客戶的數(shù)據(jù)隱私規(guī)定而受到政府的嚴(yán)厲處罰。例如,F(xiàn)acebook因劍橋數(shù)據(jù)分析違規(guī)向聯(lián)邦貿(mào)易委員會(huì)支付了50億美元的罰款。

  d.向生產(chǎn)機(jī)器提供低質(zhì)量的操作數(shù)據(jù)可能會(huì)給制造公司帶來(lái)重大問(wèn)題。
 

  數(shù)據(jù)清理涉及哪些常見(jiàn)步驟?
 

  每個(gè)人都進(jìn)行數(shù)據(jù)清理,但沒(méi)人真正談?wù)撍?。?dāng)然,這不是機(jī)器學(xué)習(xí)的“最奇妙”部分,是的,沒(méi)有任何隱藏的技巧和秘密可以發(fā)現(xiàn)。
 

  盡管不同類(lèi)型的數(shù)據(jù)將需要不同類(lèi)型的清除,但是我們?cè)诖颂幜谐龅某R?jiàn)步驟始終可以作為一個(gè)良好的起點(diǎn)。
 

  因此,讓我們清理數(shù)據(jù)中的混亂!
 

  刪除不必要的觀察
 

  數(shù)據(jù)清理的第一步是從我們的數(shù)據(jù)集中刪除不需要的觀測(cè)值。不需要的觀察包括重復(fù)或不相關(guān)的觀察。
 

  a.在數(shù)據(jù)收集過(guò)程中,最常見(jiàn)的是重復(fù)或多余的觀察結(jié)果。例如,當(dāng)我們組合多個(gè)地方的數(shù)據(jù)集或從客戶端接收數(shù)據(jù)時(shí),就會(huì)發(fā)生這種情況。隨著數(shù)據(jù)的重復(fù),這種觀察會(huì)在很大程度上改變效率,并且可能會(huì)增加正確或不正確的一面,從而產(chǎn)生不忠實(shí)的結(jié)果。
 

  b.不相關(guān)的觀察結(jié)果實(shí)際上與我們要解決的特定問(wèn)題不符。例如,在手寫(xiě)數(shù)字識(shí)別領(lǐng)域,掃描錯(cuò)誤(例如污跡或非數(shù)字字符)是無(wú)關(guān)緊要的觀察結(jié)果。這樣的觀察結(jié)果是任何沒(méi)有用的數(shù)據(jù),可以直接刪除。
 

  修復(fù)結(jié)構(gòu)錯(cuò)誤
 

  數(shù)據(jù)清理的下一步是修復(fù)數(shù)據(jù)集中的結(jié)構(gòu)錯(cuò)誤。
 

  結(jié)構(gòu)錯(cuò)誤是指在測(cè)量,數(shù)據(jù)傳輸或其他類(lèi)似情況下出現(xiàn)的那些錯(cuò)誤。這些錯(cuò)誤通常包括:
 

  a.功能名稱中的印刷錯(cuò)誤(typos),

  b.具有不同名稱的相同屬性,

  c.貼錯(cuò)標(biāo)簽的類(lèi),即應(yīng)該完全相同的單獨(dú)的類(lèi),

  d.大小寫(xiě)不一致。
 

  例如,模型應(yīng)將錯(cuò)字和大小寫(xiě)不一致(例如“印度”和“印度”)視為同一個(gè)類(lèi)別,而不是兩個(gè)不同的類(lèi)別。與標(biāo)簽錯(cuò)誤的類(lèi)有關(guān)的一個(gè)示例是“不適用”和“不適用”。如果它們顯示為兩個(gè)單獨(dú)的類(lèi),則應(yīng)將它們組合在一起。
 

  這些結(jié)構(gòu)錯(cuò)誤使我們的模型效率低下,并給出質(zhì)量較差的結(jié)果。
 

  過(guò)濾不需要的離群值
 

  數(shù)據(jù)清理的下一步是從數(shù)據(jù)集中過(guò)濾掉不需要的離群值。數(shù)據(jù)集包含離訓(xùn)練數(shù)據(jù)其余部分相距甚遠(yuǎn)的異常值。這樣的異常值會(huì)給某些類(lèi)型的ML模型帶來(lái)更多問(wèn)題。例如,線性回歸ML模型的穩(wěn)定性不如Random Forest ML模型強(qiáng)。
 

  但是,離群值在被證明有罪之前是無(wú)辜的,因此,我們應(yīng)該有一個(gè)合理的理由刪除一個(gè)離群值。有時(shí),消除異常值可以提高模型性能,有時(shí)卻不能。
 

  我們還可以使用離群值檢測(cè)估計(jì)器,這些估計(jì)器總是嘗試擬合訓(xùn)練數(shù)據(jù)最集中的區(qū)域,而忽略異常觀察值。
 

  處理丟失的數(shù)據(jù)
 

  機(jī)器學(xué)習(xí)中看似棘手的問(wèn)題之一是“缺少數(shù)據(jù)”。為了清楚起見(jiàn),您不能簡(jiǎn)單地忽略數(shù)據(jù)集中的缺失值。出于非常實(shí)際的原因,您必須以某種方式處理丟失的數(shù)據(jù),因?yàn)榇蠖鄶?shù)應(yīng)用的ML算法都不接受帶有丟失值的數(shù)據(jù)集。
 

  讓我們看一下兩種最常用的處理丟失數(shù)據(jù)的方法。
 

  a.刪除具有缺失值的觀察值:
 

  這是次優(yōu)方式,因?yàn)楫?dāng)我們丟棄觀察值時(shí),也會(huì)丟棄信息。原因是,缺失的值可能會(huì)提供參考,在現(xiàn)實(shí)世界中,即使某些功能缺失,我們也經(jīng)常需要對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。
 

  b.根據(jù)過(guò)去或其他觀察結(jié)果估算缺失值:
 

  這也是次優(yōu)的方法,因?yàn)闊o(wú)論我們的估算方法多么復(fù)雜,原始值都會(huì)丟失,這總是會(huì)導(dǎo)致信息丟失。由于缺少值可能會(huì)提供信息,因此應(yīng)該告訴我們的算法是否缺少值。而且,如果我們推算我們的價(jià)值觀,我們只是在加強(qiáng)其他功能已經(jīng)提供的模式。
 

  簡(jiǎn)而言之,關(guān)鍵是告訴我們的算法最初是否缺少值。
 

  那么我們?cè)撛趺醋瞿?
 

  a.要處理分類(lèi)特征的缺失數(shù)據(jù),只需將其標(biāo)記為“缺失”即可。通過(guò)這樣做,我們實(shí)質(zhì)上是添加了新的功能類(lèi)別。

  b.要處理丟失的數(shù)字?jǐn)?shù)據(jù),請(qǐng)標(biāo)記并填充值。通過(guò)這樣做,我們實(shí)質(zhì)上允許算法估計(jì)缺失的最佳常數(shù),而不僅僅是用均值填充。
 

  與數(shù)據(jù)清理相關(guān)的主要挑戰(zhàn)是什么?
 

  盡管數(shù)據(jù)清理對(duì)于任何組織的持續(xù)成功都是必不可少的,但它也面臨著自己的挑戰(zhàn)。一些主要挑戰(zhàn)包括:
 

  a.對(duì)引起異常的原因了解有限。

  b.錯(cuò)誤地刪除數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)不完整,無(wú)法準(zhǔn)確地“填寫(xiě)”。

  c.為了幫助提前完成該過(guò)程,構(gòu)建數(shù)據(jù)清理圖非常困難。

  d.對(duì)于任何正在進(jìn)行的維護(hù),數(shù)據(jù)清理過(guò)程既昂貴又費(fèi)時(shí)。




 

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ m.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖