中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

經(jīng)典機器學(xué)習(xí):如何做到預(yù)流失與流失挽回?

2019-08-08    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

導(dǎo)語:

預(yù)流失用戶,即有流失傾向,但還沒有開始真正流失的用戶。相較于流失用戶而言,預(yù)流失用戶處于觀望階段,或許對現(xiàn)有產(chǎn)品有所顧慮,或許對于潛在的流向(競品)有所顧慮,或許是在等待些什么;流失用戶,即已經(jīng)流失了的用戶,或許是因為游戲棄坑,或許選擇了其他產(chǎn)品,用戶肯定還在玩些什么,只是不再來你這兒了。文章介紹了如何通過經(jīng)典的機器學(xué)習(xí)(Machine Learning, ML)方法來尋找那些流失可能性比較高的用戶、尋找那些回流意愿比較大的用戶。運營同學(xué)針對這些用戶就可以重點干預(yù),降低預(yù)流失用戶比例,拉高用戶的回流比例。

背景

在日常游戲運營中,我們常常需要提高目標(biāo)用戶的留存率、提高流失用戶的回流率、精準(zhǔn)運營、節(jié)約運營資源;谝陨系氖銮,我們將經(jīng)典機器學(xué)習(xí)實踐于預(yù)流失和流失挽回兩個場景。

模型整體設(shè)計流程圖如下:

 

 

預(yù)流失與流失挽回概述

1. 預(yù)流失

預(yù)流失用戶,即有流失傾向,但還沒有開始真正流失的用戶。相較于流失用戶而言,預(yù)流失用戶處于觀望階段,或許對現(xiàn)有產(chǎn)品有所顧慮,或許對于潛在的流向(競品)有所顧慮,或許是在等待些什么。

2. 流失挽回

流失用戶,即已經(jīng)流失了的用戶,或許是因為游戲棄坑,或許選擇了其他產(chǎn)品,用戶肯定還在玩些什么,只是不再來你這兒了。

獲得訓(xùn)練數(shù)據(jù)

1. 基礎(chǔ)數(shù)據(jù)

 

 

基礎(chǔ)數(shù)據(jù)是最基礎(chǔ)也是最重要的第一步,需要我們?nèi)ふ、清洗各種原始數(shù)據(jù),原始數(shù)據(jù)包括用戶的登錄數(shù)據(jù)、充值數(shù)據(jù)和用戶數(shù)據(jù)幾個模塊。

模型訓(xùn)練自然是數(shù)據(jù)越多越好的。

2. 給用戶打標(biāo)簽

 

 

預(yù)流失,判斷用戶是否會流失,如果上上周活躍,上周不活躍則是流失用戶,label=1;反之上周活躍,則label=0。我們可以以周為單位,讀取過去四周、八周或者更多的原始數(shù)據(jù)。

在流失挽回場景,label的判斷邏輯正好相反,如下圖所示

 

 

準(zhǔn)備訓(xùn)練測試數(shù)據(jù)

1. 訓(xùn)練測試數(shù)據(jù)劃分

 

 

根據(jù)自己的數(shù)據(jù)集大小合理的劃分出三種數(shù)據(jù),驗證集在訓(xùn)練的時候用于模型調(diào)參,測試集在最后的最后模型所有參數(shù)設(shè)定后用于驗證模型效果。

2. 正負樣本均衡

如果實際數(shù)據(jù)中正負樣本的比例嚴重不均衡,則有必要處理一下。處理辦法是有放回的隨機采樣,code 示例如下:

 

 

特征工程

1. 特征選取

 

 

這里只簡單的截取了一些常用到的特征,大家可以根據(jù)自己的場景增加各種簡單特征、組合特征。日期特征需要注意一下,不同的游戲上線時間不一樣、日期格式的數(shù)據(jù)也不方便運算,比如20181231,20190101,20190102其實都只差一天,但是數(shù)值上卻差了很大,這里我們直接將日期轉(zhuǎn)換成距今天天數(shù),日期數(shù)據(jù)數(shù)值化,很方便后續(xù)的計算處理。

2. 特征處理

 

 

2.1 缺失值填充

在預(yù)流失場景中,我們針對登錄數(shù)據(jù)、充值數(shù)據(jù)做了填0處理,針對日期時間數(shù)據(jù)做填最大值處理。

2.2 zscore標(biāo)準(zhǔn)化

不同特征的取值范圍對模型訓(xùn)練的影響不言而喻,我們有必要對許多特征做一次標(biāo)準(zhǔn)化,比如登陸次數(shù)、充值金額等等。

2.3 onehot處理

對于枚舉類型的特征,最常用的編碼就是OneHot,比如性別。

訓(xùn)練模型

1. 模型選擇

預(yù)測流失Score和回流Score有許許多多的模型可以選擇,本文以LR為例,早點介紹如何在生產(chǎn)過程中實踐經(jīng)典機器學(xué)習(xí)算法。LR詳細介紹參考以下兩個鏈接

Logistic regression Docs

pyspark.ml.classification.LogisticRegression APIs

2. 模型調(diào)參

使用驗證集數(shù)據(jù)對模型進行調(diào)參,以下是LR的可配置參數(shù)

 

 

離線模型評估

1. 評估指標(biāo)

離線評估的指標(biāo)有AUC、準(zhǔn)確率、召回率、F1值

AUC的介紹可以查看博客AUC,ROC我看到的最透徹的講解,AUC用來衡量一個模型的性能。準(zhǔn)確率指的是預(yù)測為正樣本中有多少是預(yù)測對了,召回率指的是有多少正樣本被預(yù)測出來了。F1值是權(quán)衡準(zhǔn)確率和召回率的一個數(shù)值。準(zhǔn)確率、召回率、F1值隨閾值的改變而改變,根據(jù)產(chǎn)品的實際場景合理的選擇閾值。

實現(xiàn)demo,提供三種計算AUC的辦法

 

 

2. 學(xué)習(xí)曲線

通過分析學(xué)習(xí)曲線,可以診斷高偏差、高方差問題

 

 

高偏差,欠擬合,隨著訓(xùn)練樣本數(shù)量增加,最后測試集、驗證集的誤差都停在高位,彼此很接近。

嘗試解決辦法:獲得更多的特征、增加多項式特征、減少正則化程度λ。

 

 

高方差,過擬合,測試集和驗證集的誤差逐漸接近,但還是有一定的距離,隨著樣本數(shù)的增加誤差正在逐漸趨于穩(wěn)定。

嘗試解決辦法:更多的訓(xùn)練樣本、減少特征的數(shù)量、增加正則化程度λ。

預(yù)測數(shù)據(jù)

1. 獲得預(yù)測數(shù)據(jù)

預(yù)流失場景中預(yù)測數(shù)據(jù)為本周活躍的用戶,預(yù)測其是否會在下一周流失;流失場景中預(yù)測數(shù)據(jù)為本周流失用戶,預(yù)測其是否會在下周回流。

2. 預(yù)測數(shù)據(jù)分組

 

 

首先,將預(yù)測數(shù)據(jù)分成模型預(yù)測、隨機兩組,模型預(yù)測組用模型預(yù)測Score值,隨機預(yù)測組用rand的方法輸出Score值,再比較Score值與閾值的大小來判斷當(dāng)前樣本為正或者負;

然后,將預(yù)測后的數(shù)據(jù)分成2*2組,一個是線上干預(yù)組,另一組是線上不干預(yù)的對照組,用于對比線上干預(yù)的效果。

3. 上線效果分析

 

 

如上圖所示,效果分析分為模型效果和干預(yù)效果兩個維度

3.1 模型效果

分析模型效果時我們需要控制變量,排除干預(yù)、不干預(yù)的影響。預(yù)期模型預(yù)測的準(zhǔn)確率普遍要好于隨機預(yù)測的準(zhǔn)確率。

同干預(yù)的情況下,對比A組和C組的準(zhǔn)確率;同不干預(yù)的情況下,對比B組和D組的準(zhǔn)確率

3.2 干預(yù)效果

同樣需要排除不同策略預(yù)測的影響,預(yù)期干預(yù)組的留存率或者回流率要普遍好于對照組的留存率或回流率。

同模型預(yù)測情況下,對比A組和B組的留存率;同隨機預(yù)測模型情況下,對比C組和D組的留存率

小結(jié)

將全流程串起來,給出如下demo

 


作者:騰訊技術(shù)工程

標(biāo)簽: 機器學(xué)習(xí)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:p 值是什么?數(shù)據(jù)科學(xué)家用最簡單的方式告訴你

下一篇:六成開發(fā)者日編程不足4小時,半數(shù)認為學(xué)習(xí)新語言很困難