中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

25個機器學(xué)習(xí)面試題,期待你來解答

2018-09-03    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

機器學(xué)習(xí)有非常多令人困惑及不解的地方,很多問題都沒有明確的答案。但在面試中,如何探查到面試官想要提問的知識點就顯得非常重要了。在本文中,作者給出了 25 個非常有意思的機器學(xué)習(xí)面試問題,這些問題都沒有給出明確的答案,但都有一定的提示。讀者也可以在留言中嘗試。

許多數(shù)據(jù)科學(xué)家主要是從一個數(shù)據(jù)從業(yè)者的角度來研究機器學(xué)習(xí)(ML)。因此,關(guān)于機器學(xué)習(xí),我們應(yīng)該盡可能多地把注意力放在新的程序包、框架、技術(shù)等方面,而不是關(guān)于核心理論的深入研究。在本文中,我所定義的機器學(xué)習(xí)包含所有的統(tǒng)計機器學(xué)習(xí)方法,因此不僅僅指深度學(xué)習(xí)。

然而,經(jīng)過一番努力的探究和思考后,我們可以提出很多不錯的機器學(xué)習(xí)問題,而當(dāng)我們試圖回答和分析這些問題時,就可以很好地揭示問題更深層次的內(nèi)涵。基本上,這些問題可能有助于我們擺脫上面所說的那堆問題。我們并非只想一直對數(shù)據(jù)集進(jìn)行操作,我們想更加深入地研究機器學(xué)習(xí)技術(shù)的特性、奇怪的地方以及復(fù)雜的細(xì)節(jié),并最終能夠很好地接受它們。

事實上,網(wǎng)絡(luò)上有很多關(guān)于「機器學(xué)習(xí)面試問題」的文章,本文希望能稍微用不一樣的、有趣的方式來討論這些問題。

聲明:我將這些問題列舉出來只是為了啟發(fā)大家的思考,促進(jìn)相關(guān)的討論。這個問題并沒有現(xiàn)成的答案。我們會對某些問題給出提示,而這只是為了引發(fā)進(jìn)一步的討論,而不是給出了一個確切的答案。每個問題都值得被更詳細(xì)地討論,因此也就沒有固定答案。有些問題是經(jīng)過設(shè)計特意提出的,而有些只是為了逗大家開心。

問題

 

 

1. 我在 95% 的置信區(qū)間下構(gòu)建了一個線性回歸模型。這是否意味著我的模型參數(shù)對于試圖近似的函數(shù)有 95% 的概率是真實的估計值?(提示:這實際上意味著在 95% 的試驗情況下...)

2. Hadoop 文件系統(tǒng)和 KNN(k 最近鄰)算法有什么相似之處呢?(提示:都很「懶」)

3. 哪個模型結(jié)構(gòu)的表示能力更強大?(例如,它可以精確地表示一個給定的布爾函數(shù)),是一個單層感知機還是一個兩層的決策樹?(提示:以異或函數(shù)為例)

4. 對于一個兩層決策樹和一個不帶有任何激活函數(shù)的兩層神經(jīng)網(wǎng)絡(luò),誰更加強大?(提示:考慮一下非線性函數(shù)的情況?)

5. 神經(jīng)網(wǎng)絡(luò)可以作為降維的工具嗎?請詳細(xì)解釋一下。(提示:自編碼器)

 

 

6. 似乎很多人都忽視了截距項在線性回歸模型中的作用,請告訴我一個截距項的功能。(提示:噪聲(「垃圾」)收集器)

7. Lasso 正則化可以將系數(shù)降低到正好為零。嶺回歸可以將系數(shù)降低到非常小的非零值。你能從兩個簡單的函數(shù)「|x| 和 x²」的圖像中直觀地解釋他們的不同之處嗎?(提示:請注意 |x| 函數(shù)圖像中的尖點)

8. 假設(shè)你對數(shù)據(jù)集(連續(xù)值)的分布一無所知,你不能假設(shè)它是高斯分布。請用最簡單的論證來說明:無論真是的分布是什么,你都能保證有大約 89% 的數(shù)據(jù)會落在均值附近 +/- 3 個標(biāo)準(zhǔn)差的范圍內(nèi)。(提示:馬爾可夫的博士導(dǎo)師是誰?)

9. 大多數(shù)機器學(xué)習(xí)算法涉及到一些對矩陣的操作,例如矩陣乘法和求逆矩陣。請給出一個簡單的數(shù)學(xué)證明,說明為什么這種機器學(xué)習(xí)算法的 mini-batch 版本可能比在整個數(shù)據(jù)集上進(jìn)行訓(xùn)練的計算效率更高?(提示:矩陣乘法的時間復(fù)雜度...)

10. 難道你不認(rèn)為時間序列是一個非常簡單的線性回歸問題,它僅僅有一個因變量和一個自變量(時間)?在使用時序數(shù)據(jù)時,線性回歸擬合(可能是多項式回歸)的方法有什么問題?(提示:過去的信息預(yù)示著未來...)

 

 

11. 請給出一個簡單的數(shù)學(xué)證明,說明在所有可能的樹結(jié)構(gòu)中找到適用于分類問題的最優(yōu)決策樹是一個復(fù)雜度為指數(shù)級的問題。(提示:森林中究竟會有多少棵樹?)

12. 決策樹和神經(jīng)網(wǎng)絡(luò)都是非線性分類器,也就是說,通過復(fù)雜的決策邊界來分割解空間。那么,直觀地看,為什么我們認(rèn)為使用決策樹模型比深度神經(jīng)網(wǎng)絡(luò)要容易得多呢?

13. 反向傳播是深度學(xué)習(xí)的關(guān)鍵算法。請列舉一些可能替代反向傳播算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技術(shù)。(提示:隨機搜索...)

14. 假設(shè)你現(xiàn)在有兩個問題(線性回歸和 logistic 回歸)。其中哪一個更有可能從超快大型矩陣乘法算法中獲益?為什么?(提示:哪個算法更可能使用矩陣操作?)

15. 自變量之間的相關(guān)性對主成分分析有何影響?你將如何對其進(jìn)行處理?

 

 

16. 你需要建立一個關(guān)于隕石撞地球的分類模型(這是對于人類文明很重要的項目)。經(jīng)過初步分析后,你得到了 99% 的準(zhǔn)確率。你應(yīng)該感到高興嗎?為什么?你能為此做些什么?(提示:小概率事件...)

17. 是否有可能捕獲連續(xù)變量和類別變量之間的關(guān)系?如果以的話,需要怎么做?

18. 如果你正在研究基因表達(dá)數(shù)據(jù),通常會有數(shù)百萬個自變量,而只有幾百個樣本。請給出簡單的數(shù)學(xué)證明,說明為什么在這種情況下,使用最小二乘法構(gòu)建一個回歸模型并不是一個好的選擇。(提示:從矩陣代數(shù)的角度思考...)

19. 請解釋,為什么 k 折交叉驗證對于時序模型效果并不好。你能做些什么來改善這種情況?(提示:剛剛過去的信息對于未來有較強的指導(dǎo)作用...)

20. 對于回歸問題來說,從訓(xùn)練數(shù)據(jù)中通過簡單隨機抽樣得到訓(xùn)練集和驗證集是很有效的。但是對于一個分類問題來說,這種方法會存在什么問題?為此我們能做些什么?(提示:所有類別的樣本是否能被公平地抽取出來?)

 

 

21. 模型的準(zhǔn)確率和性能,哪一個對你來說更重要?

22. 如果你可以利用多個 CPU 內(nèi)核,你會更喜歡提升樹算法而不是隨機森林嗎?為什么?(提示:如果你有 10 只手去完成一項任務(wù),你會如何利用它)

23. 假設(shè)已知數(shù)據(jù)集是線性可分的,而你需要保證算法能夠收斂并且具有最大的迭代次數(shù)/訓(xùn)練步數(shù)(由于計算資源有限)。在這種情況下你會使用梯度下降法嗎?你會選擇什么方法呢?(提示:哪種簡單的算法能夠保證找到解?)

24. 假設(shè)你擁有的內(nèi)存/存儲空間非常小。你會更喜歡 logistic 回歸還是 KNN 算法?為什么?(提示:空間復(fù)雜度)

25. 為了構(gòu)建一個機器學(xué)習(xí)模型,你準(zhǔn)備了 100 個數(shù)據(jù)點和 5 種特征。為了減少偏差,你又引入了 5 個特征變量,并且又收集了 100 個數(shù)據(jù)點。請解釋這種方法是否正確。(提示:機器學(xué)習(xí)會遇到的(維度)災(zāi)難,你聽說過嗎?)

原文鏈接:https://medium.com/analytics-vidhya/25-fun-questions-for-a-machine-learning-interview-373b744a4faa

標(biāo)簽: 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:最通俗的機器學(xué)習(xí)介紹

下一篇:人工智能能否讓凱恩斯的預(yù)言變成現(xiàn)實?