中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

李飛飛高徒Andrej Karpathy提醒你,小心搭建神經(jīng)網(wǎng)絡的六個坑

2018-07-04    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

繼Ian Goodfellow的推特小課堂之后,特斯拉的人工智能研究負責人、李飛飛斯坦福高徒Andrej Karpathy也在twitter上分享了他對神經(jīng)網(wǎng)絡的一些研究技巧。

昨晚,他連發(fā)幾條twitter,細數(shù)了六種神經(jīng)網(wǎng)絡研究中的常見錯誤。引發(fā)了一波研究者們對于自己入過坑的吐槽。

 

 

來看一下Ian Goodfellow讓你當心的這六個坑吧:

最常見的神經(jīng)網(wǎng)絡錯誤:

• 沒有先試過所有數(shù)據(jù)一批處理

• 忘了為網(wǎng)絡切換訓練/評估模式

• 忘了在.backward()之前.zero_grad()(在pytorch中)

• 將softmaxed輸出傳遞給預期原始logits的損失

• 使用BatchNorm時,您沒有對線性/ 二維卷積層使用bias = False,或者反過來忘記將其包含在輸出層中。 這個倒不會讓你失敗,但它們是虛假的參數(shù)

• 以為view()和permute()是一樣的事情(不正確地使用view)

之后,在評論區(qū),也有讀者針對“對數(shù)據(jù)初始化”展開了討論。

對此,Ian也進一步詳細解釋:

是的,有幾次我重新打開數(shù)據(jù),得到的損失值卻一致,而且如果這樣做會產(chǎn)生一個漂亮的損失曲線,這表明對數(shù)據(jù)初始化并不是明智的做法。我有時喜歡調整最后一層偏差,使之接近基礎分布。

我喜歡先從最簡單的開始,例如,先對所有未處理的數(shù)據(jù)進行訓練,看看基本輸出分布的表現(xiàn)如何,然后逐增加輸入和擴大網(wǎng)絡,確保每次都比以前的表現(xiàn)更好。

標簽: 網(wǎng)絡

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:為什么你需要改進訓練數(shù)據(jù),如何改進?

下一篇:Facebook承認向61家公司提供用戶數(shù)據(jù)特殊訪問權限