中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

25個(gè)機(jī)器學(xué)習(xí)面試題,期待你來解答

2018-09-03    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

機(jī)器學(xué)習(xí)有非常多令人困惑及不解的地方,很多問題都沒有明確的答案。但在面試中,如何探查到面試官想要提問的知識(shí)點(diǎn)就顯得非常重要了。在本文中,作者給出了 25 個(gè)非常有意思的機(jī)器學(xué)習(xí)面試問題,這些問題都沒有給出明確的答案,但都有一定的提示。讀者也可以在留言中嘗試。

許多數(shù)據(jù)科學(xué)家主要是從一個(gè)數(shù)據(jù)從業(yè)者的角度來研究機(jī)器學(xué)習(xí)(ML)。因此,關(guān)于機(jī)器學(xué)習(xí),我們應(yīng)該盡可能多地把注意力放在新的程序包、框架、技術(shù)等方面,而不是關(guān)于核心理論的深入研究。在本文中,我所定義的機(jī)器學(xué)習(xí)包含所有的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,因此不僅僅指深度學(xué)習(xí)。

然而,經(jīng)過一番努力的探究和思考后,我們可以提出很多不錯(cuò)的機(jī)器學(xué)習(xí)問題,而當(dāng)我們?cè)噲D回答和分析這些問題時(shí),就可以很好地揭示問題更深層次的內(nèi)涵。基本上,這些問題可能有助于我們擺脫上面所說的那堆問題。我們并非只想一直對(duì)數(shù)據(jù)集進(jìn)行操作,我們想更加深入地研究機(jī)器學(xué)習(xí)技術(shù)的特性、奇怪的地方以及復(fù)雜的細(xì)節(jié),并最終能夠很好地接受它們。

事實(shí)上,網(wǎng)絡(luò)上有很多關(guān)于「機(jī)器學(xué)習(xí)面試問題」的文章,本文希望能稍微用不一樣的、有趣的方式來討論這些問題。

聲明:我將這些問題列舉出來只是為了啟發(fā)大家的思考,促進(jìn)相關(guān)的討論。這個(gè)問題并沒有現(xiàn)成的答案。我們會(huì)對(duì)某些問題給出提示,而這只是為了引發(fā)進(jìn)一步的討論,而不是給出了一個(gè)確切的答案。每個(gè)問題都值得被更詳細(xì)地討論,因此也就沒有固定答案。有些問題是經(jīng)過設(shè)計(jì)特意提出的,而有些只是為了逗大家開心。

問題

 

 

1. 我在 95% 的置信區(qū)間下構(gòu)建了一個(gè)線性回歸模型。這是否意味著我的模型參數(shù)對(duì)于試圖近似的函數(shù)有 95% 的概率是真實(shí)的估計(jì)值?(提示:這實(shí)際上意味著在 95% 的試驗(yàn)情況下...)

2. Hadoop 文件系統(tǒng)和 KNN(k 最近鄰)算法有什么相似之處呢?(提示:都很「懶」)

3. 哪個(gè)模型結(jié)構(gòu)的表示能力更強(qiáng)大?(例如,它可以精確地表示一個(gè)給定的布爾函數(shù)),是一個(gè)單層感知機(jī)還是一個(gè)兩層的決策樹?(提示:以異或函數(shù)為例)

4. 對(duì)于一個(gè)兩層決策樹和一個(gè)不帶有任何激活函數(shù)的兩層神經(jīng)網(wǎng)絡(luò),誰更加強(qiáng)大?(提示:考慮一下非線性函數(shù)的情況?)

5. 神經(jīng)網(wǎng)絡(luò)可以作為降維的工具嗎?請(qǐng)?jiān)敿?xì)解釋一下。(提示:自編碼器)

 

 

6. 似乎很多人都忽視了截距項(xiàng)在線性回歸模型中的作用,請(qǐng)告訴我一個(gè)截距項(xiàng)的功能。(提示:噪聲(「垃圾」)收集器)

7. Lasso 正則化可以將系數(shù)降低到正好為零。嶺回歸可以將系數(shù)降低到非常小的非零值。你能從兩個(gè)簡單的函數(shù)「|x| 和 x²」的圖像中直觀地解釋他們的不同之處嗎?(提示:請(qǐng)注意 |x| 函數(shù)圖像中的尖點(diǎn))

8. 假設(shè)你對(duì)數(shù)據(jù)集(連續(xù)值)的分布一無所知,你不能假設(shè)它是高斯分布。請(qǐng)用最簡單的論證來說明:無論真是的分布是什么,你都能保證有大約 89% 的數(shù)據(jù)會(huì)落在均值附近 +/- 3 個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。(提示:馬爾可夫的博士導(dǎo)師是誰?)

9. 大多數(shù)機(jī)器學(xué)習(xí)算法涉及到一些對(duì)矩陣的操作,例如矩陣乘法和求逆矩陣。請(qǐng)給出一個(gè)簡單的數(shù)學(xué)證明,說明為什么這種機(jī)器學(xué)習(xí)算法的 mini-batch 版本可能比在整個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練的計(jì)算效率更高?(提示:矩陣乘法的時(shí)間復(fù)雜度...)

10. 難道你不認(rèn)為時(shí)間序列是一個(gè)非常簡單的線性回歸問題,它僅僅有一個(gè)因變量和一個(gè)自變量(時(shí)間)?在使用時(shí)序數(shù)據(jù)時(shí),線性回歸擬合(可能是多項(xiàng)式回歸)的方法有什么問題?(提示:過去的信息預(yù)示著未來...)

 

 

11. 請(qǐng)給出一個(gè)簡單的數(shù)學(xué)證明,說明在所有可能的樹結(jié)構(gòu)中找到適用于分類問題的最優(yōu)決策樹是一個(gè)復(fù)雜度為指數(shù)級(jí)的問題。(提示:森林中究竟會(huì)有多少棵樹?)

12. 決策樹和神經(jīng)網(wǎng)絡(luò)都是非線性分類器,也就是說,通過復(fù)雜的決策邊界來分割解空間。那么,直觀地看,為什么我們認(rèn)為使用決策樹模型比深度神經(jīng)網(wǎng)絡(luò)要容易得多呢?

13. 反向傳播是深度學(xué)習(xí)的關(guān)鍵算法。請(qǐng)列舉一些可能替代反向傳播算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技術(shù)。(提示:隨機(jī)搜索...)

14. 假設(shè)你現(xiàn)在有兩個(gè)問題(線性回歸和 logistic 回歸)。其中哪一個(gè)更有可能從超快大型矩陣乘法算法中獲益?為什么?(提示:哪個(gè)算法更可能使用矩陣操作?)

15. 自變量之間的相關(guān)性對(duì)主成分分析有何影響?你將如何對(duì)其進(jìn)行處理?

 

 

16. 你需要建立一個(gè)關(guān)于隕石撞地球的分類模型(這是對(duì)于人類文明很重要的項(xiàng)目)。經(jīng)過初步分析后,你得到了 99% 的準(zhǔn)確率。你應(yīng)該感到高興嗎?為什么?你能為此做些什么?(提示:小概率事件...)

17. 是否有可能捕獲連續(xù)變量和類別變量之間的關(guān)系?如果以的話,需要怎么做?

18. 如果你正在研究基因表達(dá)數(shù)據(jù),通常會(huì)有數(shù)百萬個(gè)自變量,而只有幾百個(gè)樣本。請(qǐng)給出簡單的數(shù)學(xué)證明,說明為什么在這種情況下,使用最小二乘法構(gòu)建一個(gè)回歸模型并不是一個(gè)好的選擇。(提示:從矩陣代數(shù)的角度思考...)

19. 請(qǐng)解釋,為什么 k 折交叉驗(yàn)證對(duì)于時(shí)序模型效果并不好。你能做些什么來改善這種情況?(提示:剛剛過去的信息對(duì)于未來有較強(qiáng)的指導(dǎo)作用...)

20. 對(duì)于回歸問題來說,從訓(xùn)練數(shù)據(jù)中通過簡單隨機(jī)抽樣得到訓(xùn)練集和驗(yàn)證集是很有效的。但是對(duì)于一個(gè)分類問題來說,這種方法會(huì)存在什么問題?為此我們能做些什么?(提示:所有類別的樣本是否能被公平地抽取出來?)

 

 

21. 模型的準(zhǔn)確率和性能,哪一個(gè)對(duì)你來說更重要?

22. 如果你可以利用多個(gè) CPU 內(nèi)核,你會(huì)更喜歡提升樹算法而不是隨機(jī)森林嗎?為什么?(提示:如果你有 10 只手去完成一項(xiàng)任務(wù),你會(huì)如何利用它)

23. 假設(shè)已知數(shù)據(jù)集是線性可分的,而你需要保證算法能夠收斂并且具有最大的迭代次數(shù)/訓(xùn)練步數(shù)(由于計(jì)算資源有限)。在這種情況下你會(huì)使用梯度下降法嗎?你會(huì)選擇什么方法呢?(提示:哪種簡單的算法能夠保證找到解?)

24. 假設(shè)你擁有的內(nèi)存/存儲(chǔ)空間非常小。你會(huì)更喜歡 logistic 回歸還是 KNN 算法?為什么?(提示:空間復(fù)雜度)

25. 為了構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,你準(zhǔn)備了 100 個(gè)數(shù)據(jù)點(diǎn)和 5 種特征。為了減少偏差,你又引入了 5 個(gè)特征變量,并且又收集了 100 個(gè)數(shù)據(jù)點(diǎn)。請(qǐng)解釋這種方法是否正確。(提示:機(jī)器學(xué)習(xí)會(huì)遇到的(維度)災(zāi)難,你聽說過嗎?)

原文鏈接:https://medium.com/analytics-vidhya/25-fun-questions-for-a-machine-learning-interview-373b744a4faa

標(biāo)簽: 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:最通俗的機(jī)器學(xué)習(xí)介紹

下一篇:人工智能能否讓凱恩斯的預(yù)言變成現(xiàn)實(shí)?