中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

2019年最好的5個數(shù)據(jù)科學GitHub項目和Reddit討論

2019-05-12    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

Introduction

數(shù)據(jù)科學是一個不斷發(fā)展的領域。 作為數(shù)據(jù)科學家,我們需要了解社區(qū)中出現(xiàn)的最新算法和框架的脈搏。

我發(fā)現(xiàn)GitHub在這方面是一個很好的知識來源。 該平臺幫助我了解趨勢數(shù)據(jù)科學主題。 我還可以從領先的數(shù)據(jù)科學家和公司那里查找和下載代碼 - 數(shù)據(jù)科學家還能要求什么? 所以,如果你是:

♦  數(shù)據(jù)科學愛好者
♦  機器學習從業(yè)者
♦  數(shù)據(jù)科學經理
♦  深度學習專家

或者上面的任何組合,這篇文章適合你。 通過選擇頂級數(shù)據(jù)科學庫,我已經消除了瀏覽多個存儲庫的痛苦。 本月的系列重點強調自然語言處理(NLP)。

 

 

我還為您挑選了五個與數(shù)據(jù)科學相關的Reddit深度討論。 挑選數(shù)據(jù)科學專家的大腦是一個難得的機會,但Reddit讓我們可以深入了解他們的思維過程。 我強烈建議您通過這些討論來提高您的知識和行業(yè)理解。

想要查看2019年前三個月的頂級存儲庫嗎? 我們?yōu)槟峁┓⻊眨?/p>

January
February
March

Let’s get into it!

Data Science GitHub Repositories

 

 

Sparse Transformer by OpenAI – A Superb NLP Framework

 

 

這一年的結果是OpenAI的NLP研究。隨著GPT的發(fā)布,他們引起了我們的注意 2月2日(稍后會詳述)現(xiàn)在已經提出了一個建立在流行變形金剛架構之上的NLP框架。

稀疏變換器是一個深度神經網絡,可以預測序列中的下一個項目。這包括文字,圖像甚至音頻!最初的結果是創(chuàng)紀錄的。該算法使用注意機制(在深度學習中非常流行)從序列中提取模式的時間比以前可能長30倍。

得到你的關注,不是嗎?此存儲庫包含此框架的稀疏注意組件。您可以克隆或下載存儲庫并開始處理NLP 序列預測問題。只需確保使用Google Colab及其提供的免費GPU。

在以下鏈接中閱讀有關稀疏變壓器的更多信息:

OpenAI’s blog post
Research paper

OpenAI’s GPT-2 in a Few Lines of Code

沒錯。 OpenAI的GPT-2。 我之前沒有看到有關數(shù)據(jù)科學庫發(fā)布的大肆宣傳。 他們只發(fā)布了原始模型的非常小的樣本(由于害怕惡意濫用),但即使是該算法的迷你版本也向我們展示了GPT-2對于NLP任務的強大功能。

已經有很多嘗試來復制GPT-2的方法,但大多數(shù)都過于復雜或冗長。 這就是為什么這個存儲庫引起了我的注意。 這是一個簡單的Python包,允許我們在任何看不見的文本上重新訓練GPT-2的文本生成模型。 使用gpt2.generate()命令查看以下生成的文本:

 

 

您可以直接通過pip安裝gpt-2-simple(您還需要安裝TensorFlow):

pip3 install gpt_2_simple

NeuronBlocks – Impressive NLP Deep Learning Toolkit by Microsoft

本月另一個NLP條目。 它只是表明現(xiàn)在正在發(fā)生NLP的進步令人難以置信的速度。

NeuronBlocks是Microsoft開發(fā)的NLP工具包,可幫助數(shù)據(jù)科學團隊構建神經網絡的端到端管道。 NeuronBlocks背后的想法是降低為NLP任務構建深度神經網絡模型所需的成本。

 

 

構成NeuronBlocks有兩個主要組件(使用上面的圖像作為參考):

BlockZoo:這包含流行的神經網絡組件

ModelZoo:這是一套用于執(zhí)行各種任務的NLP模型

您知道應用深度學習解決方案的成本有多高。 因此,請務必查看NeuronBlocks,看看它是否適用于您或您的組織。 可以閱讀描述NeuronBlocks的完整論文 here.

CenterNet – Computer Vision using Center Point Detection

 

 

我真的很喜歡這種物體檢測方法。 通常,檢測算法將對象識別為給定圖像中的軸對齊框。 這些方法查看多個對象點和位置,并對每個對象進行分類。 這聽起來很公平 - 每個人都這樣做,對吧?

嗯,這種方法稱為CenterNet,將對象建模為單點。 基本上,它使用關鍵點估計來識別任何邊界框的中心點。 事實證明,CenterNet比我們熟悉的邊界框技術更快,更準確。

下次您處理對象檢測問題時嘗試一下 - 您會喜歡它! 您可以閱讀解釋CenterNet的論文 here.

BentoML – Toolkit for Deploying Models!

 

 

理解和學習如何部署機器學習模型對于任何數(shù)據(jù)科學家來說都是必須的。 事實上,在數(shù)據(jù)科學家訪談期間,越來越多的招聘人員開始提出與部署相關的問題。 如果你不知道它是什么,你需要立即刷新。

BentoML是一個Python庫,可幫助您打包和部署機器學習模型。 您可以在5分鐘內(大約!)將您的模型從筆記本電腦帶到生產API服務。 BentoML服務可以輕松地與您喜歡的平臺一起部署,例如Kubernetes,Docker,Airflow,AWS,Azure等。

這是一個靈活的圖書館。 它支持流行的框架,如TensorFlow,PyTorch,Sci-kit Learn,XGBoost等。您甚至可以使用BentoML部署自定義框架。 聽起來好像有機會放棄!

這個GitHub存儲庫包含了幫助您入門的代碼,以及安裝說明和幾個示例。

Data Science Reddit Discussions

 

 

What Role do Tools like Tableau and Alteryx Play in a Data Science Organization?

您是否在從事商業(yè)智能/ MIS /報告工作? 您經常發(fā)現(xiàn)自己使用Tableau,Alteryx,Power BI等拖放工具嗎? 如果您正在閱讀本文,我假設您有興趣過渡到數(shù)據(jù)科學。

這個討論主題由一位稍微沮喪的數(shù)據(jù)分析師發(fā)起,深入研究數(shù)據(jù)分析師在數(shù)據(jù)科學項目中可以發(fā)揮的作用。 討論的重點是數(shù)據(jù)分析師/ BI專業(yè)人員需要掌握的技能,以便有機會轉向數(shù)據(jù)科學。

提示:學習如何編碼良好是#1建議。

另外,請查看我們的綜合和示例填充文章 11 steps you should follow to transition into data science.

Lessons Learned During Move from Master’s Degree to the Industry

 

 

招聘數(shù)據(jù)科學經理最大的抱怨是候選人缺乏行業(yè)經驗。 對于大多數(shù)數(shù)據(jù)科學愛好者來說,縮小學術界與行業(yè)之間的差距已被證明是難以捉摸的。 MOOC,書籍,文章 - 所有這些都是很好的知識來源 - 但它們并沒有提供行業(yè)曝光。

從作者的帖子開始,這個討論對我們來說是金色的飼料。 我覺得作者已經詳細描述了他的面試經歷。 這些評論包括探討有關這種轉變的更多信息的問題點。

When ML and Data Science are the Death of a Good Company: A Cautionary Tale

這些天的共識是你可以使用機器學習和人工智能來提高你的組織的底線。 這就是管理方面的領導力,也帶來了投資。

但是,當管理層不知道如何構建AI和ML解決方案時會發(fā)生什么? 在考慮機器學習之前,是不是先投資建立基礎設施? 這部分在討論中經常被忽視,對公司來說往往是致命的。

這個討論是關于一家公司如何使用舊的編程語言和工具突然決定用華而不實的數(shù)據(jù)科學腳本和工具取代舊架構。 當你進入這個行業(yè)時,你應該注意一個警示故事。

Have we hit the Limits of Deep Reinforcement Learning?

我最近在多個論壇上看到過這個問題。 這是一個可以理解的想法。 除了技術巨頭每隔幾個月取得一些突破外,我們還沒有看到深層強化學習取得很大進展。

但這是真的嗎? 這真的是極限嗎? 我們幾乎沒有開始劃傷表面,我們已經完成了嗎? 我們大多數(shù)人都相信還有更多未來。 這個討論在技術方面和整體宏觀方案之間找到了正確的位置。

您也可以將從本次討論中吸取的經驗教訓應用到深度學習中。 當談話轉向深度神經網絡時,你會看到相似之處。

What do Data Scientists do on a Day-to-Day Basis?

有沒有想過數(shù)據(jù)科學家一天中大部分時間都在忙什么? 大多數(shù)有抱負的專業(yè)人士認為他們將在模型之后建立模型。 這是一個你需要不惜一切代價避免的陷阱。

我喜歡這次討論中的第一條評論。 這個人將數(shù)據(jù)科學家等同于成為一名律師。 也就是說,根據(jù)您所在的域名,有不同類型的角色。因此,這個問題沒有直接的答案。

其他評論為數(shù)據(jù)科學家目前所做的工作提供了一個很好的視角。 簡而言之,有大量的任務完全取決于您擁有的項目類型和團隊規(guī)模。 還有一些善意的諷刺 - 我總是很喜歡!

End Notes

鑒于我們所涉及的主題范圍很廣,我喜歡整合這個月的版本。 在計算機視覺技術達到上限的地方(相對而言),NLP繼續(xù)突破路障。 OpenAI的Sparse Transformer似乎是一個很好的NLP項目,可以嘗試下一步。

你對這個月的收藏有什么看法? 我錯過了任何數(shù)據(jù)科學圖書館或討論? 在下面的評論部分打我,讓我們討論!

標簽: [db:TAGG]

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)十年回顧:浪潮之巔數(shù)英雄

下一篇:20個安全可靠的免費數(shù)據(jù)源,各領域數(shù)據(jù)任你挑