中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

像數(shù)據(jù)科學(xué)家一樣思考:12步指南(中)

2019-04-16    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

像數(shù)據(jù)科學(xué)家一樣思考:12步指南(上)《像數(shù)據(jù)科學(xué)家一樣思考》

7-工程產(chǎn)品

 

 

下一步是建立統(tǒng)計(jì)軟件。如果統(tǒng)計(jì)是分析和從數(shù)據(jù)中得出結(jié)論的框架,那么軟件就是將這個(gè)框架付諸行動(dòng)的工具。數(shù)據(jù)科學(xué)家必須為任何項(xiàng)目做出許多軟件選擇。如果你有一個(gè)喜歡的軟件,這通常是一個(gè)不錯(cuò)的選擇,但是有充分的理由去挑選別的東西。如果你是數(shù)據(jù)科學(xué)或統(tǒng)計(jì)軟件的新手,或許很難找到一個(gè)起點(diǎn)。

電子表格和基于GUI的應(yīng)用程序通常是執(zhí)行任何類(lèi)型數(shù)據(jù)分析的首選。特別是如果數(shù)據(jù)是表格形式的,例如CSV,并且數(shù)據(jù)不是太多,那么在電子表格中開(kāi)始分析就很容易了。此外,如果你需要進(jìn)行的計(jì)算并不復(fù)雜,那么電子表格甚至可以涵蓋項(xiàng)目的所有軟件需求。這里常用的軟件工具包括Excel、SPSS、Stata、SAS和Minitab。學(xué)習(xí)這些中級(jí)工具之一的編程語(yǔ)言可能是學(xué)習(xí)真正的編程語(yǔ)言的一個(gè)很好的一步,這些語(yǔ)言本身就非常有用。特別是SAS在統(tǒng)計(jì)行業(yè)中擁有廣泛的追隨者,學(xué)習(xí)它的語(yǔ)言本身就是一個(gè)合理的目標(biāo)。

MATLAB是一種專(zhuān)有的軟件環(huán)境和編程語(yǔ)言,而且MATLAB的成本相當(dāng)高。有些人決定在一個(gè)名為Octave的開(kāi)源項(xiàng)目中復(fù)制它。隨著Octave的成熟,它在可用功能和功能方面越來(lái)越接近MATLAB。除了使用附加軟件包(工具箱)的代碼之外,用MATLAB編寫(xiě)的絕大多數(shù)代碼都可以在Octave中工作,反之亦然。

 

 

總的來(lái)說(shuō),MATLAB和Octave非常適合在信號(hào)處理、通信、圖像處理和優(yōu)化等方面使用大型矩陣的工程師(特別是電氣工程師)。

R語(yǔ)言是基于貝爾實(shí)驗(yàn)室S編程語(yǔ)言創(chuàng)建的。它是開(kāi)源的,但其許可證比Python和Java等其他流行語(yǔ)言更具限制性,特別是你正在構(gòu)建商業(yè)軟件產(chǎn)品時(shí)。與MATLAB相比,R中更容易加載和處理不同類(lèi)型的數(shù)據(jù)。MATLAB擅長(zhǎng)處理表格數(shù)據(jù),但一般來(lái)說(shuō),對(duì)于包含標(biāo)題、混合列類(lèi)型(整數(shù),小數(shù),字符串等)、JSON和數(shù)據(jù)庫(kù)查詢(xún)的表,R更好。

R的另一個(gè)優(yōu)點(diǎn)是開(kāi)源,開(kāi)發(fā)人員可以更輕松地在他們認(rèn)為合適的地方為語(yǔ)言和包開(kāi)發(fā)做出貢獻(xiàn)。這些開(kāi)源貢獻(xiàn)幫助R大幅增長(zhǎng)并擴(kuò)展了與其他軟件工具的兼容性。CRAN網(wǎng)站提供了數(shù)以千計(jì)的R包,你可以找到你想要進(jìn)行的分析類(lèi)型的軟件包,這是R語(yǔ)言的最大優(yōu)勢(shì)。MATLAB也有包,但不是很多,盡管它們通常非常好?傮w而言,對(duì)于統(tǒng)計(jì)學(xué)家和其他追求數(shù)據(jù)探索性工作而不是在軟件行業(yè)中構(gòu)建生產(chǎn)軟件的人來(lái)說(shuō),R是一個(gè)不錯(cuò)的選擇。

 

 

Python是一種功能強(qiáng)大的語(yǔ)言,可用于編寫(xiě)腳本和創(chuàng)建生產(chǎn)軟件。它更適合非統(tǒng)計(jì)任務(wù),例如與其他軟件服務(wù)集成,創(chuàng)建API和Web服務(wù)以及構(gòu)建應(yīng)用程序?赡芤?yàn)镻ython最初是一種通用編程語(yǔ)言,它有一個(gè)強(qiáng)大的面向?qū)ο笤O(shè)計(jì)框架。

盡管Python最初并不是一種專(zhuān)門(mén)用于統(tǒng)計(jì)的語(yǔ)言,但有些人已經(jīng)為Python開(kāi)發(fā)了幾個(gè)軟件包,這些軟件包提升了它的統(tǒng)計(jì)能力,現(xiàn)在足夠與R和MATLAB競(jìng)爭(zhēng)。在使用向量、數(shù)組和矩陣時(shí),數(shù)值方法的numpy包是必不可少的。軟件包scipy和scikit-learn在優(yōu)化、集成、集群、回歸、分類(lèi)和機(jī)器學(xué)習(xí)等功能中很受歡迎。使用了這三個(gè)軟件包,Python可以與R和MATLAB的核心功能相媲美,在某些領(lǐng)域,例如機(jī)器學(xué)習(xí),Python似乎在數(shù)據(jù)科學(xué)家中更受歡迎。對(duì)于數(shù)據(jù)處理,pandas已經(jīng)變得非常受歡迎。

然而,數(shù)據(jù)科學(xué)中最著名的Python包之一是Natural Language Toolkit(NLTK)。它是自然語(yǔ)言處理(NLP)中最受歡迎和最強(qiáng)大的工具。如果有人正在從Twitter、新聞源、電子郵件語(yǔ)料庫(kù)或其他地方解析和分析文本,那么他們很可能已經(jīng)使用了NLTK?偟膩(lái)說(shuō),Python非常適合想要進(jìn)行一些數(shù)據(jù)科學(xué)以及其他一些純粹的非統(tǒng)計(jì)軟件開(kāi)發(fā)的人。

 

 

雖然Java不是腳本語(yǔ)言,不太適合探索性的數(shù)據(jù)科學(xué),但Java是軟件應(yīng)用程序開(kāi)發(fā)中最著名的語(yǔ)言之一,因此它經(jīng)常用于分析應(yīng)用程序開(kāi)發(fā)。導(dǎo)致Java不利于探索性數(shù)據(jù)科學(xué)的許多原因使其更有利于應(yīng)用程序開(kāi)發(fā)。Java對(duì)于探索性數(shù)據(jù)科學(xué)來(lái)說(shuō)并不是很好,但它對(duì)于基于數(shù)據(jù)科學(xué)的大規(guī);蛏a(chǎn)代碼來(lái)說(shuō)非常有用。Java有許多統(tǒng)計(jì)庫(kù),可用于從優(yōu)化到機(jī)器學(xué)習(xí),其中許多都是由Apache Software Foundation提供和支持的。

 

 

在選擇統(tǒng)計(jì)軟件工具時(shí),請(qǐng)牢記以下標(biāo)準(zhǔn):

· 靈活性:除了能夠執(zhí)行你想要的主要統(tǒng)計(jì)分析之外,如果統(tǒng)計(jì)工具可以執(zhí)行一些相關(guān)方法,通常也會(huì)有所幫助。通常你會(huì)發(fā)現(xiàn)你選擇的方法并不像你希望的那樣好,而且你在這個(gè)過(guò)程中學(xué)到的東西會(huì)讓你相信一種不同的方法可能會(huì)更好。

· 良好的文檔:除了常用之外,統(tǒng)計(jì)軟件工具應(yīng)該有全面而有用的文檔。如果你無(wú)法找到一些重要問(wèn)題的答案,例如如何配置進(jìn)行線性回歸的輸入或如何格式化機(jī)器學(xué)習(xí)功能,這是一個(gè)不好的跡象。如果大問(wèn)題的答案不在文檔中,那么找到你將不可避免地遇到的更具體問(wèn)題的答案就更難了。

· 專(zhuān)用:某些軟件工具或其軟件包是為特定目的而構(gòu)建的,之后又添加了其他功能。例如,MATLAB和R中的矩陣代數(shù)例程在構(gòu)建語(yǔ)言時(shí)是主要關(guān)注的問(wèn)題,因此可以安全地假設(shè)它們是全面且健壯的。相比之下,矩陣代數(shù)在初始版本的Python和Java中并不是主要關(guān)注的問(wèn)題,因此這些功能稍后以包和庫(kù)的形式添加。

· 互操作性:如果你正在使用數(shù)據(jù)庫(kù),那么使用可以直接與數(shù)據(jù)庫(kù)交互的工具會(huì)很有幫助。如果你要根據(jù)結(jié)果構(gòu)建Web應(yīng)用程序,則可能需要選擇支持Web框架的工具或者至少可以使用JSON或其他一些Web友好格式導(dǎo)出數(shù)據(jù)的工具。如果你將在各種類(lèi)型的計(jì)算機(jī)上使用統(tǒng)計(jì)工具,那么你將希望該軟件能夠在各種操作系統(tǒng)上運(yùn)行。

· 許可證:如果你將商業(yè)軟件用于商業(yè)目的,那么使用學(xué)術(shù)或?qū)W生許可這樣做具有法律風(fēng)險(xiǎn)。將商業(yè)軟件(無(wú)論是否經(jīng)過(guò)修改)出售給其他人而不確認(rèn)許可證是否禁止此類(lèi)軟件也是危險(xiǎn)的。

8-優(yōu)化產(chǎn)品

 

 

接下來(lái)我們就需要使用補(bǔ)充軟件優(yōu)化產(chǎn)品。我們?cè)谏弦徊街袆?chuàng)建的軟件工具可以是多功能的,但它們本質(zhì)上是統(tǒng)計(jì)的。軟件可以做的不僅僅是統(tǒng)計(jì)數(shù)據(jù),特別是,有許多工具可用于有效地存儲(chǔ),管理和移動(dòng)數(shù)據(jù)。有些可以使計(jì)算和分析的每個(gè)方面都更快且更容易管理。這里有4種流行的軟件,可以使你作為數(shù)據(jù)科學(xué)家的工作更輕松。

數(shù)據(jù)庫(kù)很常見(jiàn),在項(xiàng)目期間跨越不同數(shù)據(jù)庫(kù)的可能性相當(dāng)高,特別是如果你要使用其他人的數(shù)據(jù)。但是,當(dāng)然不是僅僅接觸,而是自己建立一個(gè)數(shù)據(jù)庫(kù)來(lái)幫助你完成項(xiàng)目。最常見(jiàn)的兩種類(lèi)型是關(guān)系型(SQL)和非關(guān)系型(NoSQL,ElasticSearch),與將數(shù)據(jù)存儲(chǔ)在計(jì)算機(jī)的文件系統(tǒng)上相比,數(shù)據(jù)庫(kù)具有許多優(yōu)勢(shì)。大多數(shù)情況下,數(shù)據(jù)庫(kù)可以提供對(duì)數(shù)據(jù)的任意訪問(wèn)且比文件系統(tǒng)更快,并且它們還可以通過(guò)冗余方式擴(kuò)展,這種方式優(yōu)于文件系統(tǒng)擴(kuò)展。

高性能計(jì)算(HPC)是一個(gè)通用術(shù)語(yǔ),適用于需要進(jìn)行大量計(jì)算并且希望盡快完成計(jì)算的情況。你可以選擇使用超級(jí)計(jì)算機(jī),計(jì)算機(jī)集群或圖形處理單位(它們非常適合執(zhí)行高度可并行化的計(jì)算)。如果你有權(quán)訪問(wèn),那么HPC是等待PC計(jì)算所有需要計(jì)算的東西的好選擇。使用HPC產(chǎn)品的好處有很多,但是在你選擇之前你必須要衡量一下成本。

最大的云服務(wù)提供商主要是大型科技公司,例如阿里巴巴、谷歌和微軟等公司在向公眾開(kāi)放之前都已經(jīng)擁有大量的計(jì)算和存儲(chǔ)資源。但他們并不總是將資源用到最大負(fù)荷,因此他們決定出租過(guò)剩的產(chǎn)能并擴(kuò)大其收益,結(jié)果證明這是一系列有利可圖的商業(yè)決策。提供的服務(wù)通常大致相當(dāng)于個(gè)人計(jì)算機(jī),計(jì)算機(jī)集群或本地網(wǎng)絡(luò)的功能。所有這些可以在世界各地的地理區(qū)域中獲得,可通過(guò)在線連接和標(biāo)準(zhǔn)連接協(xié)議訪問(wèn),以及通常是Web瀏覽器界面。如果你沒(méi)有足夠的資源來(lái)充分滿足你的數(shù)據(jù)科學(xué)需求,你可以選擇嘗試購(gòu)買(mǎi)云服務(wù)。

最后,你可以嘗試大數(shù)據(jù)技術(shù):Hadoop,HBase和Hive等。大數(shù)據(jù)技術(shù)的設(shè)計(jì)不是為了移動(dòng)數(shù)據(jù),而是當(dāng)數(shù)據(jù)集處于非常大的規(guī)模時(shí),利用大數(shù)據(jù)技術(shù)可以節(jié)省大量的時(shí)間和金錢(qián)。每當(dāng)計(jì)算任務(wù)受數(shù)據(jù)傳輸限制時(shí),大數(shù)據(jù)可以提高效率。但是,與本章中描述的其他技術(shù)相比,大數(shù)據(jù)系統(tǒng)軟件需要花費(fèi)一些精力。

9-執(zhí)行計(jì)劃

 

 

構(gòu)建階段的最后一步是執(zhí)行產(chǎn)品的構(gòu)建計(jì)劃。大多數(shù)軟件工程師可能熟悉構(gòu)建復(fù)雜軟件的試驗(yàn)和磨難,但他們可能不熟悉構(gòu)建處理可疑質(zhì)量數(shù)據(jù)的軟件的難度。另一方面,統(tǒng)計(jì)人員知道擁有臟數(shù)據(jù)的情況,但可能沒(méi)有建立更高質(zhì)量軟件的經(jīng)驗(yàn)。同樣,與項(xiàng)目相關(guān)的不同角色的每個(gè)人可能擁有各種經(jīng)驗(yàn),并為不同的事情做好準(zhǔn)備。

· 如果你是一名統(tǒng)計(jì)學(xué)家,你會(huì)知道有臟數(shù)據(jù),而且你知道偏差和夸大結(jié)果的重要性。但你可能沒(méi)有太多經(jīng)驗(yàn)來(lái)構(gòu)建業(yè)務(wù)軟件,特別是生產(chǎn)軟件。你應(yīng)該咨詢(xún)具有實(shí)踐經(jīng)驗(yàn)的軟件工程師,以了解如何提高軟件的穩(wěn)健性。

· 如果你是軟件工程師,你知道開(kāi)發(fā)生命周期是什么樣的,并且你知道如何在部署和交付之前測(cè)試軟件。但是你可能不了解數(shù)據(jù),無(wú)論你在軟件設(shè)計(jì)和開(kāi)發(fā)方面有多好,數(shù)據(jù)最終都會(huì)以你從未想過(guò)的方式破壞你的應(yīng)用程序。這需要在構(gòu)建軟件時(shí)采用新的思維模式以及對(duì)錯(cuò)誤有容忍度,因?yàn)樗鼈儠?huì)頻繁地發(fā)生。你應(yīng)該咨詢(xún)精通預(yù)測(cè)和處理有問(wèn)題數(shù)據(jù)的統(tǒng)計(jì)人員,例如異常值,缺失值。

· 如果你剛開(kāi)始從事數(shù)據(jù)科學(xué),沒(méi)有豐富的統(tǒng)計(jì)學(xué)或軟件工程經(jīng)驗(yàn),如果你可以向他們解釋你的項(xiàng)目和目標(biāo),那么有經(jīng)驗(yàn)的人可以向你提供一些可靠的建議。作為一個(gè)初學(xué)者,你在這個(gè)過(guò)程階段有職責(zé)來(lái)彌補(bǔ)經(jīng)驗(yàn)的不足。

· 如果你只是該項(xiàng)目的一個(gè)團(tuán)隊(duì)成員,那么溝通和協(xié)調(diào)是至關(guān)重要的。你不必了解團(tuán)隊(duì)中發(fā)生的所有事情,但有必要明確目標(biāo)和期望,并確保有人管理整個(gè)團(tuán)隊(duì)。

設(shè)計(jì)計(jì)劃應(yīng)包含多個(gè)路徑和選項(xiàng),所有這些都取決于項(xiàng)目的結(jié)果、目標(biāo)和期限。無(wú)論計(jì)劃有多好,隨著項(xiàng)目的進(jìn)展,總有可能對(duì)其進(jìn)行修訂。即使你考慮到所有不確定因素并且意識(shí)到每一種可能的結(jié)果,計(jì)劃范圍之外的事情也可能會(huì)發(fā)生變化。計(jì)劃需要改變的最常見(jiàn)原因是新信息從項(xiàng)目外部的來(lái)源出現(xiàn),并且計(jì)劃的一個(gè)或多個(gè)路徑發(fā)生變化或目標(biāo)本身發(fā)生變化。

隨著項(xiàng)目的進(jìn)展,你通常會(huì)看到越來(lái)越多的結(jié)果積累,讓你有機(jī)會(huì)確保它們符合你的期望。一般而言,在涉及統(tǒng)計(jì)的數(shù)據(jù)科學(xué)項(xiàng)目中,期望基于統(tǒng)計(jì)顯著性的概念或基于這些結(jié)果的實(shí)際有用性概念。統(tǒng)計(jì)意義和實(shí)際有用性通常密切相關(guān),當(dāng)然不是相互排斥的。作為項(xiàng)目計(jì)劃的一部分,你可能包含了在統(tǒng)計(jì)分析結(jié)果中達(dá)到某種準(zhǔn)確性或重要性的目標(biāo),實(shí)現(xiàn)這些目標(biāo)將被視為該項(xiàng)目的成功。

原文:https://medium.com/cracking-the-data-science-interview/how-to-think-like-a-data-scientist-in-12-steps-157ea8ad5da8?spm=a2c4e.11153940.blogcont697805.12.44bf12614ABffX

文章原標(biāo)題《how-to-think-like-a-data-scientist-in-12-steps》作者:James Le譯者:虎說(shuō)八道

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:夏普的多事之秋,與即將迎來(lái)的行業(yè)新紅利

下一篇:像數(shù)據(jù)科學(xué)家一樣思考:12步指南(上)