數(shù)據(jù)科學(xué)的下一個(gè)「超能力」：模型可解釋性

2019-03-29 來源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬Linux鏡像隨意使用

很多人重視重視模型的預(yù)測(cè)能力，卻忽略了模型可解釋性的重要性，只知其然而不知其所以然。為什么說模型的可解釋性這么重要呢?作者就 5 個(gè)方面對(duì)此進(jìn)行了闡述。

模型的可解釋性能夠展示你的模型在學(xué)什么，并且觀察模型內(nèi)部比大多數(shù)人想的更有用。

在過去的 10 年間，我采訪了許多數(shù)據(jù)科學(xué)家，模型的可解釋性是我最喜歡的主題，我用它來區(qū)分最好的數(shù)據(jù)科學(xué)家和一般的數(shù)據(jù)科學(xué)家。

有些人認(rèn)為機(jī)器學(xué)習(xí)模型是黑箱，能做出預(yù)測(cè)但無法理解;可是最好的數(shù)據(jù)科學(xué)家可以通過任何模型洞察真實(shí)世界。給出任何模型，這些數(shù)據(jù)科學(xué)家都可以輕松地回答下面的問題：

♦ 模型認(rèn)為數(shù)據(jù)中最重要的特征是什么

♦ 就模型的任何單個(gè)預(yù)測(cè)結(jié)果而言，數(shù)據(jù)中的每個(gè)特征是如何影響這一預(yù)測(cè)結(jié)果的

♦ 特征之間什么樣的相互作用對(duì)模型預(yù)測(cè)產(chǎn)生的影響最大

這些問題的答案比大多數(shù)人認(rèn)為的要有意義。受此啟發(fā)，我在 Kaggle 上開設(shè)了模型可解釋性的微課程。無論你是通過 Kaggle 還是其他的綜合性資源(比如《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)(Elements of Statistical Learning)》)進(jìn)行學(xué)習(xí)，這些技術(shù)都將徹底地改變你構(gòu)建、驗(yàn)證和部署機(jī)器學(xué)習(xí)模型的方式。

為什么這些洞察結(jié)果很有價(jià)值?

模型洞察結(jié)果的五個(gè)最重要應(yīng)用是：

♦ 調(diào)試

♦ 指導(dǎo)特征工程

♦ 指導(dǎo)未來數(shù)據(jù)的收集方向

♦ 指導(dǎo)人類做出決策

♦ 建立信任

調(diào)試

這個(gè)世界中存在很多不可靠的、雜亂無章且具有大量噪聲的數(shù)據(jù)。當(dāng)你寫下預(yù)處理代碼時(shí)，你就添加了潛在的錯(cuò)誤源頭。加上目標(biāo)泄漏的可能性，在真實(shí)的數(shù)據(jù)科學(xué)項(xiàng)目中，在某個(gè)點(diǎn)出現(xiàn)錯(cuò)誤是正常的，而非例外。

鑒于錯(cuò)誤的頻率以及潛在的災(zāi)難性后果，調(diào)試成為了數(shù)據(jù)科學(xué)中最有價(jià)值的技能之一。理解模型正在尋找的模式有助于你確定模型何時(shí)與你對(duì)現(xiàn)實(shí)世界的了解不一致，這一般都是追蹤錯(cuò)誤的第一步。

指導(dǎo)特征工程

特征工程一般是提高模型準(zhǔn)確率的最有效方法。特征工程通常包括轉(zhuǎn)換原始數(shù)據(jù)或之前創(chuàng)建的特征來反復(fù)創(chuàng)建新特征。

有時(shí)候你可以僅憑對(duì)基本主題的直覺來完成這個(gè)過程。但是當(dāng)原始特征有 100 多個(gè)或者你缺乏手頭項(xiàng)目的背景知識(shí)時(shí)，你就需要更多指導(dǎo)了。

Kaggle 競(jìng)賽中有道題是關(guān)于預(yù)測(cè)貸款違約的，這就是一個(gè)極端的例子。這道題中有 100 多個(gè)原始特征。出于隱私原因，這些特征沒用常見的英文名字，而是用 f1、f2、f3 這樣的代號(hào)命名的。這就模擬了一個(gè)你不怎么了解原始數(shù)據(jù)的場(chǎng)景。

一名參賽者發(fā)現(xiàn)了 f527~f528 這兩個(gè)特征之間的差異，從而創(chuàng)建了強(qiáng)大的新特征。將這一差異作為特征的模型比沒有這個(gè)特征的模型要好得多。但是當(dāng)變量有數(shù)百個(gè)時(shí)，你怎么能想到創(chuàng)建這個(gè)變量呢?

你在這門課程中學(xué)到的技巧能讓你輕易分辨出 f527 和 f528 是重要特征，而且它們是有緊密關(guān)聯(lián)的。這會(huì)指導(dǎo)你考慮轉(zhuǎn)換這兩個(gè)變量，從而找到 f527-f528 的「黃金特征」。

現(xiàn)在的數(shù)據(jù)集動(dòng)輒就有成百上千個(gè)原始特征，因此這個(gè)方法的重要性與日俱增。

指導(dǎo)未來數(shù)據(jù)的收集方向

你無法控制在線下載的數(shù)據(jù)集。但許多使用數(shù)據(jù)科學(xué)的企業(yè)和組織都有機(jī)會(huì)擴(kuò)大他們收集數(shù)據(jù)的類型。收集新類型的數(shù)據(jù)又貴又不方便，所以他們只會(huì)收集值得費(fèi)力氣的數(shù)據(jù)。基于模型的洞察結(jié)果可以讓你更好地理解當(dāng)前特征的價(jià)值，這將幫助你推斷出哪些新價(jià)值是最有用的。

指導(dǎo)人類做出決策

有些決策是由模型自動(dòng)做出的——當(dāng)你登錄亞馬遜時(shí)，網(wǎng)站沒有人在倉促間決定給你展示什么內(nèi)容。但是有很多重要的決定必須要由人類來做。就這些決策而言，模型的洞察能力比預(yù)測(cè)能力更有價(jià)值。

建立信任

在沒有驗(yàn)證基本事實(shí)的情況下，人們不會(huì)相信你的模型，也就不會(huì)根據(jù)你的模型做出重要的決策。就數(shù)據(jù)出錯(cuò)的頻率而言，這是明智的預(yù)防措施。在實(shí)踐中，展示符合他們一般認(rèn)知的洞察結(jié)果有助于建立用戶對(duì)模型的信任，即便這些用戶對(duì)數(shù)據(jù)科學(xué)知之甚少也沒關(guān)系。

原文鏈接：https://towardsdatascience.com/why-model-explainability-is-the-next-data-science-superpower-b11b6102a5e0

標(biāo)簽： [db:TAGG]

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:干貨！這才是學(xué)習(xí)Python的正確打開方式！

下一篇:剛剛，ACM 宣布三位深度學(xué)習(xí)之父共同獲得 2018 年圖靈獎(jiǎng)！

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學(xué)的下一個(gè)「超能力」：模型可解釋性