工作中是否經(jīng)常遇到這樣的場(chǎng)景:業(yè)務(wù)部門(mén)希望通過(guò)營(yíng)銷活動(dòng)來(lái)提高產(chǎn)品的銷量,但是預(yù)算是有限的。在預(yù)算允許范圍內(nèi),如何更多的提升轉(zhuǎn)化率是每個(gè)從事數(shù)據(jù)分析、數(shù)據(jù)挖掘人員需要面臨的問(wèn)題。
本篇將以銀行營(yíng)銷活動(dòng)相關(guān)數(shù)據(jù)為例,手把手教大家如何識(shí)別客戶是否有意愿購(gòu)買該銀行的產(chǎn)品,針對(duì)高意愿客戶進(jìn)行精準(zhǔn)營(yíng)銷來(lái)提升轉(zhuǎn)化率。廢話不多說(shuō),下面開(kāi)始詳細(xì)介紹我們的解決方案。
數(shù)據(jù)中包含客戶基本信息、活動(dòng)行為信息。在實(shí)際場(chǎng)景中,如果有客戶的偏好信息,參與活動(dòng)歷史信息等,也可以加入其中。
數(shù)據(jù)預(yù)處理
1、 數(shù)據(jù)查看
我們可以看到數(shù)據(jù)共計(jì) 25317 行,空數(shù)據(jù)暫無(wú),詳情如下:
2、數(shù)據(jù)預(yù)處理
對(duì)源數(shù)據(jù)進(jìn)行觀察,可以發(fā)現(xiàn)分類字段有'unknown'這個(gè)類別,此時(shí)將該類別也當(dāng)作缺失值,進(jìn)一步查看
通常對(duì)于缺失值的處理,最常用的方法無(wú)外乎刪除法、替換法和插補(bǔ)法。
1)刪除法是指將缺失值所在的觀測(cè)行刪除(前提是缺失行的比例非常低,如 5%以內(nèi)),或者刪除缺失值所對(duì)應(yīng)的變量(前提是該變量中包含的缺失值比例非常高,如 70%左右)
2)替換法是指直接利用缺失變量的均值、中位數(shù)或眾數(shù)替換該變量中的缺失值,其好處是缺失值的處理速度快,弊端是易產(chǎn)生有偏估計(jì),導(dǎo)致缺失值替換的準(zhǔn)確性下降
3)插補(bǔ)法則是利用有監(jiān)督的機(jī)器學(xué)習(xí)方法(如回歸模型、樹(shù)模型、網(wǎng)絡(luò)模型等)對(duì)缺失值作預(yù)測(cè),其優(yōu)勢(shì)在于預(yù)測(cè)的準(zhǔn)確性高,缺點(diǎn)是需要大量的計(jì)算,導(dǎo)致缺失值的處理速度大打折扣
這里觀察到 contact 和 poutcome 的'unknow'類別分別達(dá)到 28.76%和 81.67%,在展示數(shù)據(jù)后考慮進(jìn)一步處理,job 和 education 的 unknown 占比較小,考慮不對(duì)這兩個(gè)特征的 unknow 進(jìn)行處理。
數(shù)據(jù)分析
下面我們對(duì)源數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)字段分為離散變量和連續(xù)變量,下面我們將逐一進(jìn)行分析。
1、離散變量
通過(guò)可視圖我們可以對(duì)每個(gè)特征情況進(jìn)行初步觀察,方便分析這些特征是否會(huì)影響購(gòu)買率。
2、連續(xù)變量
1)age 年齡
從上圖我們可以看出兩類客戶的購(gòu)買年齡分布差異不大;
2)balance 每年賬戶的平均余額
3)duration 最后一次聯(lián)系的交流時(shí)長(zhǎng)
4)campaign 在本次活動(dòng)中,與該客戶交流過(guò)的次數(shù)
5)pdays 距離上次活動(dòng)最后一次聯(lián)系該客戶,過(guò)去了多久(999表示沒(méi)有聯(lián)系過(guò))
6)previous 在本次活動(dòng)之前,與該客戶交流過(guò)的次數(shù)
特征工程
通過(guò)上述對(duì)每個(gè)特征進(jìn)行數(shù)據(jù)分析,我們對(duì)數(shù)據(jù)有了大致了解,下面我們從數(shù)據(jù)平衡性、數(shù)據(jù)標(biāo)準(zhǔn)化等角度進(jìn)行特征工程處理。
1、從訓(xùn)練集查看是否平衡數(shù)據(jù)集
我們可以看到是9:1,數(shù)據(jù)集是不平衡數(shù)據(jù)集
2、連續(xù)變量即數(shù)值化數(shù)據(jù)做標(biāo)準(zhǔn)化處理
3、分類變量做編碼處理
4、不平衡數(shù)據(jù)集處理
數(shù)據(jù)建模
為了方便講解,本篇使用邏輯回歸進(jìn)行數(shù)據(jù)分析建模,在實(shí)際工作場(chǎng)景中,我們可以使用隨機(jī)森林、lgb、xgboost、DNN等模型都是可以的,根據(jù)具體場(chǎng)景和建模效果進(jìn)行選擇。
roc-auc曲線
上面我們進(jìn)行了數(shù)據(jù)訓(xùn)練、數(shù)據(jù)預(yù)測(cè)、模型性能評(píng)估等操作。
結(jié)論
至此,業(yè)務(wù)方提出的場(chǎng)景問(wèn)題,我已給出了解決方案,接下來(lái)就是模型迭代優(yōu)化了。
填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc