中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

杰出數(shù)據(jù)科學(xué)家的關(guān)鍵技能是什么?

2019-02-15    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

學(xué)習(xí)如何應(yīng)用不同的Python或R算法真的很簡(jiǎn)單:眾所周知, 我們只需要修改一兩行代碼,就能將線性回歸遷移到神經(jīng)網(wǎng)絡(luò)、SVM,或者你喜歡的其他模型。

定義超參數(shù)也不是那么困難:只需為這些參數(shù)創(chuàng)建一個(gè)交叉驗(yàn)證和網(wǎng)格搜索,以提高模型精度。部署一個(gè)模型可能會(huì)更為復(fù)雜,需要有一點(diǎn)點(diǎn)耐心和堅(jiān)持、大量的教程和不斷嘗試與試錯(cuò),您就可以上傳一個(gè)每分鐘可以處理數(shù)百萬個(gè)請(qǐng)求的模型(或者您可以使用諸如marvin這樣的工具,它將替你做大量的工作)。但究竟是什么讓你突顯出你的優(yōu)勢(shì)呢?最優(yōu)秀的數(shù)據(jù)科學(xué)家需要掌握的關(guān)鍵技能又是什么?

簡(jiǎn)而言之:關(guān)鍵在于知道如何根據(jù)數(shù)據(jù)創(chuàng)建分析視圖。

交易數(shù)據(jù)庫(kù)-那些存儲(chǔ)交易數(shù)據(jù)的數(shù)據(jù)庫(kù),如訂單、付款、訪問日志等-是為存儲(chǔ)應(yīng)用程序交易數(shù)據(jù)而定制的,對(duì)數(shù)據(jù)科學(xué)沒有直接幫助。構(gòu)建這些數(shù)據(jù)庫(kù)的開發(fā)人員卻不這么認(rèn)為,也許不應(yīng)該考慮如何使用這些數(shù)據(jù)進(jìn)行分析。他們只是簡(jiǎn)單地創(chuàng)建了數(shù)據(jù)模型,以提高應(yīng)用程序的性能。

嘗試創(chuàng)建基于事務(wù)的機(jī)器學(xué)習(xí)模型是行不通的,除非你希望對(duì)某一項(xiàng)事務(wù)進(jìn)行預(yù)測(cè)。數(shù)據(jù)科學(xué)家工作時(shí)通常需要基于數(shù)據(jù)分析。那么,究竟應(yīng)該如何基于數(shù)據(jù)分析呢?它又如何區(qū)別于基于事務(wù)?

分析數(shù)據(jù)庫(kù)究竟是什么?

分析數(shù)據(jù)庫(kù)是為了某項(xiàng)特定的研究而設(shè)計(jì)的;诳蛻袅魇У念A(yù)測(cè)與基于購(gòu)物車中的產(chǎn)品推薦不同。然而,兩者的數(shù)據(jù)源可能是相同的:事務(wù)性數(shù)據(jù)庫(kù)?蛻袅魇ьA(yù)測(cè)必須對(duì)每個(gè)客戶的行為數(shù)據(jù)進(jìn)行分組,因此可以隨著時(shí)間的推移觀察客戶的行為。至于產(chǎn)品推薦,數(shù)據(jù)必須按會(huì)話分組,以預(yù)測(cè)哪些項(xiàng)目與購(gòu)物車關(guān)聯(lián)。

 

 

能夠創(chuàng)建分析數(shù)據(jù)庫(kù)比精通多種算法更重要。

了解如何創(chuàng)建分析基礎(chǔ)是數(shù)據(jù)科學(xué)家需要培養(yǎng)的最重要技能之一。同時(shí),它也是課程、MOOC和教程中教得較少的課程之一。為了將事務(wù)性數(shù)據(jù)轉(zhuǎn)換為可以分析的數(shù)據(jù),必須真正了解你正在處理的業(yè)務(wù)。這一點(diǎn),加上批判性思維,是正確界定問題的基礎(chǔ)。

創(chuàng)建目標(biāo)與分析數(shù)據(jù)一致性并不容易:它需要一個(gè)長(zhǎng)期的調(diào)研過程,這往往會(huì)讓您的經(jīng)理失望。

數(shù)據(jù)科學(xué)家經(jīng)常需要target來訓(xùn)練他/她的模型。如果看一看Kaggle,你會(huì)發(fā)現(xiàn)無數(shù)的比賽和數(shù)據(jù)集,其中的target已經(jīng)定義,并可以在培訓(xùn)和評(píng)估中直接使用。但是,事務(wù)性數(shù)據(jù)庫(kù)通常沒有準(zhǔn)備好的target。數(shù)據(jù)科學(xué)家必須明確客戶何時(shí)需要放棄服務(wù), 以便創(chuàng)建客戶流失模型。并且需要定義什么是不良付款行為,即使難以預(yù)測(cè)到。創(chuàng)建目標(biāo)和分析數(shù)據(jù)一致性并不是那么容易:它需要一個(gè)長(zhǎng)期的調(diào)查過程,這通常會(huì)讓您的經(jīng)理失望(直到現(xiàn)在,他們都相信自己擁有所有的數(shù)據(jù),他們所需要的只是一個(gè)數(shù)據(jù)科學(xué)家)。

事實(shí)上,數(shù)據(jù)科學(xué)遠(yuǎn)大于將數(shù)據(jù)輸入模型并評(píng)估性能指標(biāo)的即插即用過程。

數(shù)據(jù)探索

設(shè)想一種情況,在這種情況下,您有一個(gè)數(shù)據(jù)庫(kù),幾個(gè)銷售分析師根據(jù)行為概況對(duì)銷售線索進(jìn)行分類。為了對(duì)客戶進(jìn)行分類,分析師必須在談判過程中判斷銷售線索的行為,然后為客戶選擇一個(gè)適當(dāng)?shù)拿枋霾⑻顚懸粡埍砀。我們這里有一些潛在的問題:

♦ 在同一談判過程中,分析師對(duì)潛在客戶的判斷不一定與其他分析師的判斷相同。不同的分析師可以對(duì)同一個(gè)潛在客戶可能會(huì)進(jìn)行不同的分類。

♦ 分析師真的了解每個(gè)行為特征代表什么嗎?是否有明確的標(biāo)準(zhǔn)來將潛在客戶分類為“描述X”而不是“描述Y”?

♦ 在收集期間,流程是否發(fā)生變化,如插入新的行為類別/描述?如果是這樣的話,那么在定義目標(biāo)時(shí),你必須決定如何考慮它們。

如何收集數(shù)據(jù)?在與潛在客戶的每次新接觸中,行為模式是否都會(huì)改變,以便分析師真正選擇最佳的模式?

管理者是否要求準(zhǔn)確地對(duì)其分類?如果要求分析師回答的只是一個(gè)“無聊”的過程,那么很有可能有些分類是“因?yàn)樗麄儽仨?rdquo;填寫的。當(dāng)行為模式總是以相同的順序呈現(xiàn)給分析師時(shí),這個(gè)問題變得更加明顯:目標(biāo)可能偏向于第一個(gè)選項(xiàng)。

在這個(gè)過程之后,您可能會(huì)得出這樣的結(jié)論:到目前為止收集的數(shù)據(jù)是完全無用的,因?yàn)闆]有標(biāo)準(zhǔn)和過程。這肯定會(huì)讓很多人失望(甚至你也可能會(huì)失望)。

為信用違約預(yù)測(cè)創(chuàng)建分析數(shù)據(jù)庫(kù)(行為評(píng)分)

為了使創(chuàng)建分析數(shù)據(jù)庫(kù)的過程更清晰,讓我們看看正確定義問題和創(chuàng)建用于執(zhí)行預(yù)測(cè)的分析數(shù)據(jù)庫(kù)所需的一組過程的示例。

 

 

創(chuàng)建一個(gè)預(yù)測(cè)客戶信用違約的模型涉及一系列業(yè)務(wù)和技術(shù)決策,這些決策必須由數(shù)據(jù)科學(xué)家做出。

假設(shè)你與金融服務(wù)部門合作,并且面臨以下問題:

♦ 我們需要?jiǎng)?chuàng)建一個(gè)模型來識(shí)別哪些客戶在不久的將來不會(huì)支付他們的發(fā)票。

為此,你需要?jiǎng)?chuàng)建描述客戶付款的變量。然后有必要?jiǎng)?chuàng)建一個(gè)回歸模型,能夠區(qū)分好的和壞的付款人。最后,你需要計(jì)算客戶好壞的概率。

1.定義目標(biāo)是什么

在數(shù)據(jù)庫(kù)中的任何地方都找不到一個(gè)類別變量,它指示某個(gè)客戶是好的還是壞的付款人。首先,有必要定義什么是好客戶或壞客戶。為此,我們可以研究逾期付款。例如,你可能會(huì)發(fā)現(xiàn)平均延遲為20天,但75%的發(fā)票在到期日后17天內(nèi)支付。

你可以通過逾期天數(shù)內(nèi)的付款來設(shè)計(jì)累積分布。因此,你將能夠核實(shí),30天后,87%的發(fā)票已經(jīng)支付。但6個(gè)月后,這個(gè)百分比將上升到90%。然后,我們可以使用貝葉斯推理來預(yù)測(cè)客戶在逾期30天后支付發(fā)票的概率。

代碼查看請(qǐng)點(diǎn)擊鏈接:https://ai.yanxishe.com/page/TextTranslation/1405

我們可以得出的結(jié)論是,如果客戶的付款已經(jīng)延遲了30天,那么他/她將來償還債務(wù)的可能性非常低(只有23%)。要決定什么是好的或壞的付款行為,需要對(duì)業(yè)務(wù)有深入的了解,因?yàn)槟阈枰私膺@種可能性是否足夠低,以便將延遲30天以內(nèi)的客戶分類為好的付款方,而那些超過30天的客戶則是壞的付款方。

2.創(chuàng)建觀察和性能框架

我們感興趣的是,利用過去一段時(shí)間內(nèi)客戶行為的數(shù)據(jù),預(yù)測(cè)未來一段時(shí)間內(nèi)客戶違約的可能性。選擇這些框架的大小是一個(gè)比統(tǒng)計(jì)更重要的業(yè)務(wù)/談判決策,請(qǐng)記住,它們必須足夠大,能夠包含多個(gè)客戶的行為觀察結(jié)果。窗口太短會(huì)增加觀察結(jié)果的方差,因此模型會(huì)失去精度。

定義:

根據(jù)客戶過去12個(gè)月的行為,我想預(yù)測(cè)他/她在未來6個(gè)月內(nèi)成為一個(gè)好付款人的可能性。

為了實(shí)現(xiàn)這一定義,你需要:

♦ 定義至少比當(dāng)前日期早6個(gè)月的觀察點(diǎn)。

♦ 定義一個(gè)觀察框架,該框架在觀察點(diǎn)之前12個(gè)月開始并在其中結(jié)束。

♦ 定義一個(gè)性能框架,該框架在觀察點(diǎn)之后擴(kuò)展6個(gè)月。

♦ 定義一個(gè)好的付款人是什么。我們剛才做的!

 

 

在創(chuàng)建分析數(shù)據(jù)庫(kù)的過程中,時(shí)間框架問題是一個(gè)非常重要的步驟。

注意,這個(gè)定義帶來了一些含義:

♦ 你需要至少18個(gè)月的數(shù)據(jù)

♦ 你的預(yù)測(cè)必然會(huì)有一個(gè)時(shí)間框架。每次運(yùn)行模型時(shí),它都會(huì)計(jì)算出未來6個(gè)月內(nèi)的默認(rèn)概率。

在分析數(shù)據(jù)庫(kù)中創(chuàng)建特征時(shí),觀察點(diǎn)和時(shí)間范圍的大小始終是您的參考。

3.創(chuàng)建目標(biāo)功能

既然我們已經(jīng)定義了什么是我們的目標(biāo),什么是觀察和性能框架,我們就可以最終在數(shù)據(jù)庫(kù)上創(chuàng)建目標(biāo)了。為此,您將計(jì)算績(jī)效時(shí)間范圍內(nèi)每個(gè)客戶的最大逾期天數(shù),并根據(jù)以下規(guī)則創(chuàng)建一個(gè)好的付款方變量:

if max(delay) >= 30 days then is bad = 0
If max(delay) < 30 days then is good = 1

因此,如果在履行期限內(nèi),客戶的付款延遲超過30天,即使發(fā)票延遲付款,他/她也將被歸類為不良。

我們輸入0代表壞,1代表好,因?yàn)槲覀円x分?jǐn)?shù)越高,默認(rèn)概率越低。

4.除外條款

現(xiàn)在我們需要對(duì)業(yè)務(wù)結(jié)構(gòu)有廣泛的了解,所以我們可以從我們的基地執(zhí)行一些排除。實(shí)例:

♦ 排除觀察點(diǎn)沒有信用額度的所有客戶

♦ 排除在觀察點(diǎn)發(fā)票過期超過30天的所有客戶,因?yàn)槲覀円呀?jīng)知道他們是壞人

♦ 排除所有從未進(jìn)行過交易的客戶

5.特色結(jié)構(gòu)

對(duì)于本研究,必須按客戶對(duì)基礎(chǔ)進(jìn)行分組。每個(gè)變量必須描述觀察時(shí)間框架內(nèi)客戶的特定行為。以下是一些可處理變量的示例:

 

 

創(chuàng)建的分析數(shù)據(jù)庫(kù)示例,用于提供預(yù)測(cè)客戶違約的行為評(píng)分模型。

♦ 狀態(tài):個(gè)人信息功能-表示客戶居住的省/州

♦ 年齡:個(gè)人信息功能-表示在觀察點(diǎn)計(jì)算的客戶年齡

♦ 性別:個(gè)人信息功能-表示客戶的性別

♦ MOB:客戶簽到到觀察點(diǎn)后的月數(shù)

♦ 平均限額:觀察12個(gè)月內(nèi)限額使用的平均百分比

♦ 最大限值:觀察12個(gè)月內(nèi)最大限值使用百分比

♦ 采購(gòu)總額:觀察12個(gè)月內(nèi)的采購(gòu)總額

♦ dpd_op:觀察點(diǎn)過期天數(shù)

♦ max_dpd:觀察12個(gè)月內(nèi)到期的最長(zhǎng)天數(shù)。如果所有發(fā)票都提前支付,則可能為負(fù)數(shù)。

♦ 平均每日住院天數(shù):觀察12個(gè)月內(nèi)到期的平均天數(shù)。如果所有發(fā)票都提前支付,則可能為負(fù)數(shù)。

♦ 到期前數(shù)量:觀察12個(gè)月內(nèi)到期前支付的發(fā)票數(shù)量。

♦ 好的付款人:target-表示客戶在績(jī)效窗口的6個(gè)月內(nèi),發(fā)票是否延遲超過30天。

6.表現(xiàn)的時(shí)間到了!

現(xiàn)在我們終于要討論建立一個(gè)模型了!你現(xiàn)在可以應(yīng)用你在數(shù)據(jù)科學(xué)課程中學(xué)到的所有知識(shí)。您的分析基礎(chǔ)已經(jīng)設(shè)計(jì)好,可以開始在這種情況下數(shù)據(jù)處理和應(yīng)用模型的行動(dòng)。

最簡(jiǎn)單的解決方案是使用上面創(chuàng)建的變量應(yīng)用邏輯回歸,以預(yù)測(cè)好的付款人目標(biāo)。模型將為每個(gè)客戶返回0和1之間的值,表明他/她是一個(gè)好付款人的概率。

務(wù)必正確解釋結(jié)果:

分?jǐn)?shù)將表明某個(gè)客戶在未來6個(gè)月內(nèi)不會(huì)延遲付款超過30天的可能性。

原標(biāo)題 :What is the key skill that the best data scientists have?

作者:André Sionek 翻譯: kylechenoO、Ophria

原文鏈接:

https://towardsdatascience.com/what-is-the-key-skill-that-the-best-data-scientists-have-655edea228ac

標(biāo)簽: 代碼 金融 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:2019年采用大數(shù)據(jù)發(fā)生重大變化的6個(gè)行業(yè)

下一篇:機(jī)器學(xué)習(xí)工程師職位正在消失