站長資訊平臺

25個機器學(xué)習(xí)面試題，期待你來解答

2018-09-03 來源：raincent

機器學(xué)習(xí)有非常多令人困惑及不解的地方，很多問題都沒有明確的答案。但在面試中，如何探查到面試官想要提問的知識點就顯得非常重要了。在本文中，作者給出了 25 個非常有意思的機器學(xué)習(xí)面試問題，這些問題都沒有給出明確的答案，但都有一定的提示。讀者也可以在留言中嘗試。

許多數(shù)據(jù)科學(xué)家主要是從一個數(shù)據(jù)從業(yè)者的角度來研究機器學(xué)習(xí)(ML)。因此，關(guān)于機器學(xué)習(xí)，我們應(yīng)該盡可能多地把注意力放在新的程序包、框架、技術(shù)等方面，而不是關(guān)于核心理論的深入研究。在本文中，我所定義的機器學(xué)習(xí)包含所有的統(tǒng)計機器學(xué)習(xí)方法，因此不僅僅指深度學(xué)習(xí)。

然而，經(jīng)過一番努力的探究和思考后，我們可以提出很多不錯的機器學(xué)習(xí)問題，而當(dāng)我們試圖回答和分析這些問題時，就可以很好地揭示問題更深層次的內(nèi)涵。基本上，這些問題可能有助于我們擺脫上面所說的那堆問題。我們并非只想一直對數(shù)據(jù)集進(jìn)行操作，我們想更加深入地研究機器學(xué)習(xí)技術(shù)的特性、奇怪的地方以及復(fù)雜的細(xì)節(jié)，并最終能夠很好地接受它們。

事實上，網(wǎng)絡(luò)上有很多關(guān)于「機器學(xué)習(xí)面試問題」的文章，本文希望能稍微用不一樣的、有趣的方式來討論這些問題。

聲明：我將這些問題列舉出來只是為了啟發(fā)大家的思考，促進(jìn)相關(guān)的討論。這個問題并沒有現(xiàn)成的答案。我們會對某些問題給出提示，而這只是為了引發(fā)進(jìn)一步的討論，而不是給出了一個確切的答案。每個問題都值得被更詳細(xì)地討論，因此也就沒有固定答案。有些問題是經(jīng)過設(shè)計特意提出的，而有些只是為了逗大家開心。

問題

1. 我在 95% 的置信區(qū)間下構(gòu)建了一個線性回歸模型。這是否意味著我的模型參數(shù)對于試圖近似的函數(shù)有 95% 的概率是真實的估計值?(提示：這實際上意味著在 95% 的試驗情況下...)

2. Hadoop 文件系統(tǒng)和 KNN(k 最近鄰)算法有什么相似之處呢?(提示：都很「懶」)

3. 哪個模型結(jié)構(gòu)的表示能力更強大?(例如，它可以精確地表示一個給定的布爾函數(shù))，是一個單層感知機還是一個兩層的決策樹?(提示：以異或函數(shù)為例)

4. 對于一個兩層決策樹和一個不帶有任何激活函數(shù)的兩層神經(jīng)網(wǎng)絡(luò)，誰更加強大?(提示：考慮一下非線性函數(shù)的情況?)

5. 神經(jīng)網(wǎng)絡(luò)可以作為降維的工具嗎?請詳細(xì)解釋一下。(提示：自編碼器)

6. 似乎很多人都忽視了截距項在線性回歸模型中的作用，請告訴我一個截距項的功能。(提示：噪聲(「垃圾」)收集器)

7. Lasso 正則化可以將系數(shù)降低到正好為零。嶺回歸可以將系數(shù)降低到非常小的非零值。你能從兩個簡單的函數(shù)「|x| 和 x²」的圖像中直觀地解釋他們的不同之處嗎?(提示：請注意 |x| 函數(shù)圖像中的尖點)

8. 假設(shè)你對數(shù)據(jù)集(連續(xù)值)的分布一無所知，你不能假設(shè)它是高斯分布。請用最簡單的論證來說明：無論真是的分布是什么，你都能保證有大約 89% 的數(shù)據(jù)會落在均值附近 +/- 3 個標(biāo)準(zhǔn)差的范圍內(nèi)。(提示：馬爾可夫的博士導(dǎo)師是誰?)

9. 大多數(shù)機器學(xué)習(xí)算法涉及到一些對矩陣的操作，例如矩陣乘法和求逆矩陣。請給出一個簡單的數(shù)學(xué)證明，說明為什么這種機器學(xué)習(xí)算法的 mini-batch 版本可能比在整個數(shù)據(jù)集上進(jìn)行訓(xùn)練的計算效率更高?(提示：矩陣乘法的時間復(fù)雜度...)

10. 難道你不認(rèn)為時間序列是一個非常簡單的線性回歸問題，它僅僅有一個因變量和一個自變量(時間)?在使用時序數(shù)據(jù)時，線性回歸擬合(可能是多項式回歸)的方法有什么問題?(提示：過去的信息預(yù)示著未來...)

11. 請給出一個簡單的數(shù)學(xué)證明，說明在所有可能的樹結(jié)構(gòu)中找到適用于分類問題的最優(yōu)決策樹是一個復(fù)雜度為指數(shù)級的問題。(提示：森林中究竟會有多少棵樹?)

12. 決策樹和神經(jīng)網(wǎng)絡(luò)都是非線性分類器，也就是說，通過復(fù)雜的決策邊界來分割解空間。那么，直觀地看，為什么我們認(rèn)為使用決策樹模型比深度神經(jīng)網(wǎng)絡(luò)要容易得多呢?

13. 反向傳播是深度學(xué)習(xí)的關(guān)鍵算法。請列舉一些可能替代反向傳播算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技術(shù)。(提示：隨機搜索...)

14. 假設(shè)你現(xiàn)在有兩個問題(線性回歸和 logistic 回歸)。其中哪一個更有可能從超快大型矩陣乘法算法中獲益?為什么?(提示：哪個算法更可能使用矩陣操作?)

15. 自變量之間的相關(guān)性對主成分分析有何影響?你將如何對其進(jìn)行處理?

16. 你需要建立一個關(guān)于隕石撞地球的分類模型(這是對于人類文明很重要的項目)。經(jīng)過初步分析后，你得到了 99% 的準(zhǔn)確率。你應(yīng)該感到高興嗎?為什么?你能為此做些什么?(提示：小概率事件...)

17. 是否有可能捕獲連續(xù)變量和類別變量之間的關(guān)系?如果以的話，需要怎么做?

18. 如果你正在研究基因表達(dá)數(shù)據(jù)，通常會有數(shù)百萬個自變量，而只有幾百個樣本。請給出簡單的數(shù)學(xué)證明，說明為什么在這種情況下，使用最小二乘法構(gòu)建一個回歸模型并不是一個好的選擇。(提示：從矩陣代數(shù)的角度思考...)

19. 請解釋，為什么 k 折交叉驗證對于時序模型效果并不好。你能做些什么來改善這種情況?(提示：剛剛過去的信息對于未來有較強的指導(dǎo)作用...)

20. 對于回歸問題來說，從訓(xùn)練數(shù)據(jù)中通過簡單隨機抽樣得到訓(xùn)練集和驗證集是很有效的。但是對于一個分類問題來說，這種方法會存在什么問題?為此我們能做些什么?(提示：所有類別的樣本是否能被公平地抽取出來?)

21. 模型的準(zhǔn)確率和性能，哪一個對你來說更重要?

22. 如果你可以利用多個 CPU 內(nèi)核，你會更喜歡提升樹算法而不是隨機森林嗎?為什么?(提示：如果你有 10 只手去完成一項任務(wù)，你會如何利用它)

23. 假設(shè)已知數(shù)據(jù)集是線性可分的，而你需要保證算法能夠收斂并且具有最大的迭代次數(shù)/訓(xùn)練步數(shù)(由于計算資源有限)。在這種情況下你會使用梯度下降法嗎?你會選擇什么方法呢?(提示：哪種簡單的算法能夠保證找到解?)

24. 假設(shè)你擁有的內(nèi)存/存儲空間非常小。你會更喜歡 logistic 回歸還是 KNN 算法?為什么?(提示：空間復(fù)雜度)

25. 為了構(gòu)建一個機器學(xué)習(xí)模型，你準(zhǔn)備了 100 個數(shù)據(jù)點和 5 種特征。為了減少偏差，你又引入了 5 個特征變量，并且又收集了 100 個數(shù)據(jù)點。請解釋這種方法是否正確。(提示：機器學(xué)習(xí)會遇到的(維度)災(zāi)難，你聽說過嗎?)

原文鏈接：https://medium.com/analytics-vidhya/25-fun-questions-for-a-machine-learning-interview-373b744a4faa

標(biāo)簽：搜索網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:最通俗的機器學(xué)習(xí)介紹

下一篇:人工智能能否讓凱恩斯的預(yù)言變成現(xiàn)實？

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

25個機器學(xué)習(xí)面試題，期待你來解答

25個機器學(xué)習(xí)面試題，期待你來解答