站長資訊平臺

2018年Analytics Vidhya上最受歡迎的15篇數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)文章

2019-01-22 來源：raincent

本文為你整理了多個高質(zhì)量和受歡迎的數(shù)據(jù)科學(xué)培訓(xùn)課程、學(xué)習(xí)文章及學(xué)習(xí)指南。

簡介

Analytics Vidhya是由Kunal發(fā)起的一個數(shù)據(jù)科學(xué)社區(qū)，上面有許多精彩的內(nèi)容。2018年我們把社區(qū)的內(nèi)容建設(shè)提升到了一個全新的水平，推出了多個高質(zhì)量和受歡迎的培訓(xùn)課程，出版了知識豐富的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)文章和指南，博客訪問量每月超過250萬次。

當(dāng)拉上2018年的精彩帷幕之時，我們想和社區(qū)的讀者來分享這一年中的精彩華文。本文也是該系列文章的一部分，希望你能喜歡。其他幾篇回溯性文章見：

A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019：

https://www.analyticsvidhya.com/blog/2018/12/key-breakthroughs-ai-ml-2018-trends-2019/

The 25 Best Data Science Projects on GitHub from 2018 that you Should Not Miss：

https://www.analyticsvidhya.com/blog/2018/12/best-data-science-machine-learning-projects-github/

在這個文集中，我總結(jié)了每一篇文章，并根據(jù)它們各自的領(lǐng)域進(jìn)行了分類。每一篇文章還包含對內(nèi)容的總結(jié)。如果你有其他你覺得特別有用的文章，請在下面的評論框中告訴我們。

現(xiàn)在，我們來看看2018年在Analytics Vidhya上的那些最受歡迎程的文章吧!

本文所涵蓋的專題

一、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)-終極二重奏
二、商業(yè)智能與數(shù)據(jù)可視化
三、數(shù)據(jù)科學(xué)方向的職業(yè)
四、自然語言處理(NLP)
五、播客

一、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)-終極二重奏

1. Scratch構(gòu)建推薦引擎的綜合指南(用Python語言)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/

推薦技術(shù)已經(jīng)存在了幾十年(不是幾百年)。機(jī)器學(xué)習(xí)的興起無疑加速了這些技術(shù)的進(jìn)步，我們已經(jīng)不再需要依靠直覺，手動地對行為進(jìn)行監(jiān)控——只要把數(shù)據(jù)和正確的技術(shù)有機(jī)結(jié)合起來，瞧!你便有了一個非常高效和劃算的組合。

本文是你在這個主題中能找到的最全面的指南之一。它涵蓋了各種類型的推薦引擎算法以及在Python中創(chuàng)建它們的基本原理。Pulkit首先解釋了什么是推薦引擎，它們是如何工作的。然后用Python(使用流行的MovieLens數(shù)據(jù)集)進(jìn)行了一個案例研究，并利用它解釋了如何構(gòu)建特定模型，他關(guān)注的兩項主要技術(shù)是協(xié)同過濾和矩陣因式分解。

一旦建立好了推薦引擎，該如何評估它呢?我們怎么知道它是否按照我們的計劃運作呢?Pulkit展示了六種不同的評估技術(shù)來驗證我們的模型，從而解答了這個問題。

2. 24個可以提高你的知識和技能的終極數(shù)據(jù)科學(xué)項目(&可以自由訪問，無需付費)

https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

這是Analytics Vidhya有史以來最受歡迎的文章之一。最初發(fā)布于2016年，我們的團(tuán)隊更新了來自不同行業(yè)的最新數(shù)據(jù)集。數(shù)據(jù)集被劃分為三個職業(yè)級別-各個級別適合于職業(yè)生涯中的不同階段：

初級：這個級別主要使用易用的數(shù)據(jù)集，并且不需要復(fù)雜的數(shù)據(jù)科學(xué)技術(shù)

中級：這個級別主要使用更富挑戰(zhàn)性的數(shù)據(jù)集，它由中、大型數(shù)據(jù)集組成，要求具備一些高級的模式識別技能

高級：這個級別最適合那些了解高級主題的人，如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、推薦系統(tǒng)等。

蛋糕上的糖霜呢?每個項目都有一個與之相關(guān)的教程!因此，無論你是想從scratch開始學(xué)習(xí)，還是被困在某個點上，或者只是想用一個分?jǐn)?shù)來評估你的結(jié)果，你都可以將它標(biāo)記為書簽，迅速回到該教程之中。

3. 在Scratch中用Python理解和建立目標(biāo)檢測模型

https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/

目標(biāo)檢測在2018年真正開始了起飛，它可以為自動駕駛汽車安全導(dǎo)航，使之順利通過交通擁堵，在人群擁擠的地方發(fā)現(xiàn)暴力行為，協(xié)助運動隊分析和建立偵察報告，在制造過程中確保質(zhì)量控制等等，這些只是目標(biāo)檢測技術(shù)所涉及的表面而已，它能做到的事情遠(yuǎn)不止這些。

在本文中，F(xiàn)aizan Shaikh首先解釋了目標(biāo)檢測是什么，然后再深入探討解決目標(biāo)檢測問題的多種不同的方法。他從非�；镜姆椒ㄩ_始，將圖像分割成不同的部分，并在每個部分上使用圖像分類器。在此基礎(chǔ)上，對每個步驟進(jìn)行了改進(jìn)，最終展示了如何利用深度學(xué)習(xí)來構(gòu)建端到端的對象檢測模型。

如果這個話題吸引到了你，并且你正在尋找一個切入點開始你的深度學(xué)習(xí)之旅，我建議你去看看“利用深度學(xué)習(xí)的計算機(jī)視覺”課程。

4. 集成學(xué)習(xí)綜合指南(附Python代碼)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/

一旦我們掌握了基本的機(jī)器學(xué)習(xí)算法，接下來就是集成學(xué)習(xí)了。這是一個迷人的概念，并在本文中得到了非常好的解釋。有大量的例子可以幫助把復(fù)雜的主題分解成容易理解的想法。

由于本指南的綜合性，Aishwarya指導(dǎo)我們通過許多技術(shù)-bagging，boosting，隨機(jī)森林，LightGBM，CatBoost等等，所有的信息寶庫都集中在一個地方!

在黑客比賽中，你經(jīng)常會遇到這種方法-它是一種已經(jīng)被證實的、成為領(lǐng)頭羊的方法。

5. 每個數(shù)據(jù)科學(xué)家必須使用的25個深度學(xué)習(xí)開放數(shù)據(jù)集

https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

學(xué)習(xí)和吸收一個概念的最好方法是什么?學(xué)習(xí)理論是一個很好的開始，但是只有當(dāng)我們真正理解這種技術(shù)是如何工作之后，我們才能從實踐中真正學(xué)到東西。對于像深度學(xué)習(xí)這樣廣闊的領(lǐng)域來說，尤其如此。

訓(xùn)練技能的數(shù)據(jù)集并不短缺-但是應(yīng)該從哪里開始呢?哪一組數(shù)據(jù)集最適合用來建立你的個人資料?你能得到特定領(lǐng)域的數(shù)據(jù)集來幫助你熟悉這一領(lǐng)域的工作嗎?為了能夠幫助到你，我們?yōu)槟憔奶暨x了25個開放的深度學(xué)習(xí)數(shù)據(jù)集。

這些數(shù)據(jù)集分為三類：

圖像處理

自然語言處理

音頻/語音處理

所以，選擇你感興趣的領(lǐng)域，從今天起就開始吧!

6. 12種降維技術(shù)的終極指南(附Python代碼)

https://www.analyticsvidhya.com/blog/2018/08/dimensionality-reduction-techniques-python/

啊，維度的詛咒。能有更多的數(shù)據(jù)固然好，它有助于構(gòu)成一個足夠大的訓(xùn)練集。但正如大多數(shù)數(shù)據(jù)科學(xué)家所證實的那樣，擁有過多的數(shù)據(jù)最終會讓人頭疼。當(dāng)面對一個擁有1000個變量的數(shù)據(jù)集時，應(yīng)該做什么?要在粒度級別上分析每個變量是不太可能的。

這就是降維技術(shù)會如此重要的原因。在不丟失(太多)信息的情況下減少特征的數(shù)量是我們共同努力的目標(biāo)，降維是一種非常有效的方法，Pulkit在這篇文章中對此做了全面的展示。他討論了12種降維技術(shù)，以及它們在Python中的實現(xiàn)，其中包括主成分分析(PCA)、因子分析和t-SNE。

二、商業(yè)智能與數(shù)據(jù)可視化

1. 數(shù)據(jù)科學(xué)和商業(yè)智能專業(yè)人員的Tableau中級指南

https://www.analyticsvidhya.com/blog/2018/01/tableau-for-intermediate-data-science/

Tableau是分析手頭數(shù)據(jù)的一個非常好的工具，它的功能不僅僅局限于生成漂亮的可視化圖表——利用 Excel同樣也可以實現(xiàn)類似的任務(wù)。

Tableau的擴(kuò)展功能確實可以將智能放入到BI之中。

本文針對的是已經(jīng)熟悉Tableau的基本功能，但是希望拓展對該工具的認(rèn)識的用戶。作者介紹了連接、數(shù)據(jù)混合、執(zhí)行計算、分析和理解參數(shù)等主題。文中的華美描述，將使你更加想要立即啟動Tableau!

如果需要快速復(fù)習(xí)一下Tableau，也可以先閱讀Tableau初學(xué)者指南。

2. 數(shù)據(jù)科學(xué)和商業(yè)智能專業(yè)人員的Tableau高級進(jìn)階指南

https://www.analyticsvidhya.com/blog/2018/03/tableau-for-advanced-users-easy-expertise-in-data-visualisation/

在完成Tableau中級指南之后，接下來順理成章地可以學(xué)習(xí)本指南。在這里，我們超越了Tableau的“ShowMe”(秀我)特性，探索出更為高級的圖表。Pavleen雄辯地如是說-“這些高級圖表的壯美令人興奮和陶醉”。

這篇文章中涵蓋多種不同類型的圖表- Motion，Bump，Donut，Waterfall 和Pareto。此外，還介紹了Tableau中R編程的概念。當(dāng)你希望將數(shù)據(jù)科學(xué)與BI結(jié)合起來時，這的確非常有用!

三、數(shù)據(jù)科學(xué)方向的職業(yè)

1. 最全面的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)面試指南

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/

把這些個指南放在一起真的很有趣。面試往往是數(shù)據(jù)科學(xué)家們面臨的絆腳石，要想通過面試，需要一定的技能組合，如果你來自非技術(shù)背景(比如我)，那么破解這些面試就變得更具挑戰(zhàn)性了。

數(shù)據(jù)科學(xué)方向的面試通常會問什么樣的問題?面試官要尋找的是什么?技術(shù)和軟技能的正確結(jié)合是什么?如果沒有做好充分的準(zhǔn)備，這些都會讓人望而生畏，這就是撰寫這篇冗長而詳細(xì)的指南背后的想法。

這個全面的帖子涵蓋了多個主題與豐富的資源，包括數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)問題，特定工具的小測驗，各種案例研究，謎題，猜測，甚至是幾個引導(dǎo)你奔向終點線的真實的勵志小故事!

2. 業(yè)余數(shù)據(jù)科學(xué)家所犯的13個常見錯誤及如何避免這些錯誤

https://www.analyticsvidhya.com/blog/2018/07/13-common-mistakes-aspiring-fresher-data-scientists-make-how-to-avoid-them/

有抱負(fù)的數(shù)據(jù)科學(xué)家在匆忙闖入這個領(lǐng)域時往往會犯很多錯誤，我同樣在這個領(lǐng)域也出過很多錯，在這篇文章中，記錄了13個我見過的業(yè)余數(shù)據(jù)科學(xué)家所犯的常見錯誤。相信我，成為一名數(shù)據(jù)科學(xué)家是一條艱難的道路，而你并不是唯一犯這些錯誤的人。

從別人的錯誤中吸取教訓(xùn)也可能是一種職業(yè)生涯的經(jīng)歷，為此，我還提供了一份資源清單，目的是幫助你克服這些障礙，助力你邁向數(shù)據(jù)科學(xué)希望之地的旅程。

3. 想成為一名數(shù)據(jù)工程師嗎?這是一份助你啟程的全面的資源列表。

https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/

到目前為止，我們主要討論的是數(shù)據(jù)科學(xué)家。但是數(shù)據(jù)科學(xué)領(lǐng)域還有很多其他的角色，目前最熱門的是數(shù)據(jù)工程師。在所有的數(shù)據(jù)科學(xué)家的大肆宣傳中，他們往往被忽視了，但在任何DS項目中，數(shù)據(jù)工程師都是非常關(guān)鍵的一環(huán)。

要成為數(shù)據(jù)工程師，目前沒有單一的結(jié)構(gòu)化路徑可以遵循，我希望這篇文章能提供一個不同的選項。這里有大量免費資源，包括電子書、視頻課程、基于文本的文章等。

了解了什么是數(shù)據(jù)工程師，以及這個角色與數(shù)據(jù)科學(xué)家的不同之處之后，我們便直接深入到你需要了解的各個方面的知識和技能，以便使你順利成為自己希望成為的那個角色。文中，我還提到了一些在數(shù)據(jù)科學(xué)界得到了認(rèn)可的數(shù)據(jù)工程證書。

四、自然語言處理

1. 數(shù)據(jù)科學(xué)家和工程師們處理文本數(shù)據(jù)的終極指南(附Python語言)

https://www.analyticsvidhya.com/blog/2018/02/the-different-methods-deal-text-data-predictive-python/

這是一本你的必讀指南。這本NLP初學(xué)者基礎(chǔ)指南，從一些基本概念開始，逐步構(gòu)建起更先進(jìn)的概念，如包詞和單詞嵌入。解決文本數(shù)據(jù)問題有多種方法，在這里將介紹這些不同的方法。

特征提取、預(yù)處理和高級技術(shù)-所有這些都是文本數(shù)據(jù)包含的內(nèi)容。每種技術(shù)都使用Python代碼和一個開放的數(shù)據(jù)集來展示，這樣可以做到一邊學(xué)習(xí)一邊編寫代碼。

你還可以加入 ‘使用Python的自然語言處理’綜合課程，開啟自己的NLP職業(yè)生涯。

2. 用Python構(gòu)建FAQ聊天機(jī)器人-信息搜索的未來

https://www.analyticsvidhya.com/blog/2018/01/faq-chatbots-the-future-of-information-searching/

2018年是聊天機(jī)器人達(dá)到頂峰的一年，這是自然語言處理(NLP)在市場上最常見的應(yīng)用。不難理解的是，越來越多的人想要學(xué)習(xí)如何構(gòu)建一個聊天機(jī)器人。那么，你來對地方了!

本文探討如何提取與印度最近引入的商品和服務(wù)稅(GST)相關(guān)信息，在Python中構(gòu)建聊天機(jī)器人。一個GST-FAQ機(jī)器人!作者利用Rasa-NLU庫構(gòu)建了該BOT。

3. 在Python中使用ULMFiT和Quickai庫進(jìn)行文本分類(NLP)教程

https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/

這是一個非常重要的話題-無論對于初學(xué)者還是高級NLP用戶來說都是如此。ULMFiT框架是由Sebastian Ruder和JeremyHoward開發(fā)的，它為其他遷移學(xué)習(xí)庫鋪平了道路。這篇文章更適合那些熟悉基本NLP技術(shù)并希望拓展知識面的人。

Prateek Joshi采用通俗易懂方法，向我們介紹了遷移學(xué)習(xí)的世界：ULMFiT框架，以及如何在Python中實現(xiàn)這些概念。正如Sebastian Ruder所說，“NLP的ImageNet時刻已經(jīng)到來”，是時候跳上這架馬車了。

五、播客(一種可訂閱下載音頻文件的互聯(lián)網(wǎng)服務(wù)，多為個人自發(fā)制作)

注：播客是一種可訂閱下載音頻文件的互聯(lián)網(wǎng)服務(wù)，多為個人自發(fā)制作。

1. 必聽的10個數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能的播客

https://www.analyticsvidhya.com/blog/2018/01/10-data-science-machine-learning-ai-podcasts-must-listen/

播客是一個很好的消費信息的媒介。不是所有的人都有時間閱讀文章，播客正是填補(bǔ)了這一空白，使得我們更為便捷地了解機(jī)器學(xué)習(xí)的最新發(fā)展。這個前10名播客集在出版時就走紅了，之后便一直位居榜首。

我們今年還推出了自己的播客系列：DataHack Radio。DHR的特點是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)行業(yè)的頂級先驅(qū)者和實踐者，并迎合數(shù)據(jù)科學(xué)界各層級的需要。它可以在SoundCloud，iTunes上訪問到，當(dāng)然也可以在我們自己的網(wǎng)站上訪問到!

尾注

再一次對Analytics Vidhya社區(qū)的成員大聲表示：感謝你們一如既往的支持和對數(shù)據(jù)科學(xué)的熱愛。讓我們共同努力，使2019年成為更加美好和更為壯大的一年，并承諾保持我們對學(xué)習(xí)的無限渴望!明年見。

原文標(biāo)題：

The 15 Most Popular Data Science and Machine Learning Articles on Analytics Vidhya in 2018

原文鏈接：

https://www.analyticsvidhya.com/blog/2018/12/most-popular-articles-analytics-vidhya-2018/

標(biāo)簽：安全代碼互聯(lián)網(wǎng) 互聯(lián)網(wǎng)服務(wù) 搜索網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:短視頻時代，LinkedIn 如何利用數(shù)據(jù)提高視頻性能

下一篇:如何在TensorFlow 2.0中構(gòu)建強(qiáng)化學(xué)習(xí)智能體

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

2018年Analytics Vidhya上最受歡迎的15篇數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)文章