中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一份數(shù)據(jù)科學(xué)“必備”的數(shù)學(xué)基礎(chǔ)清單

2018-08-22    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

秋招已經(jīng)開(kāi)始,相信很多同學(xué)想從事數(shù)據(jù)科學(xué)崗位。對(duì)于數(shù)據(jù)科學(xué)崗位而言,數(shù)學(xué)知識(shí)的儲(chǔ)備重要嗎?答案顯而易見(jiàn),掌握好數(shù)學(xué)對(duì)于從事該崗位而言是很重要的。數(shù)學(xué)一直是任何當(dāng)代科學(xué)學(xué)科的基礎(chǔ),幾乎所有的現(xiàn)代數(shù)據(jù)科學(xué)技術(shù)(包括所有的機(jī)器學(xué)習(xí))都有一些深刻的數(shù)學(xué)知識(shí)。在本文中,我們將討論想成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家應(yīng)該掌握的基本數(shù)學(xué)知識(shí),以便在各個(gè)方面都能很好地適應(yīng)。


 

介紹


有時(shí)候,作為一名數(shù)據(jù)科學(xué)家(甚至是團(tuán)隊(duì)的初級(jí)分析師),你必須全心全意地學(xué)習(xí)那些基礎(chǔ)的數(shù)學(xué)知識(shí),或者正確地應(yīng)用這些技術(shù),有時(shí)候你可以通過(guò)使用一些API或者拿來(lái)即用的算法完成相關(guān)任務(wù)。

但是,如果你對(duì)用于為用戶(hù)創(chuàng)建有意義的產(chǎn)品推薦算法背后的數(shù)學(xué)知識(shí)有充分的了解,這將永遠(yuǎn)不會(huì)對(duì)你有任何損害。通常情況下,懂得這些知識(shí)應(yīng)該能讓你在同齡人中占有一席之地。

毫無(wú)疑問(wèn),想成為一名頂級(jí)的數(shù)據(jù)科學(xué)家還需要掌握其他領(lǐng)域的知識(shí),比如編程能力、具有一定的商業(yè)頭腦,以及對(duì)數(shù)據(jù)的獨(dú)特分析和好奇心態(tài)。本文所要做的就是整理一份最基本的數(shù)學(xué)技能指南,以幫助你更好地完成這項(xiàng)工作。
 

對(duì)“新手”特別重要


對(duì)于那些在其他領(lǐng)域花費(fèi)大量時(shí)間并想進(jìn)入這一領(lǐng)域的專(zhuān)業(yè)人士來(lái)說(shuō),基礎(chǔ)學(xué)知識(shí)顯得尤其重要,比如硬件工程、零售、化學(xué)加工工業(yè)、企業(yè)管理等領(lǐng)域。

雖然這些領(lǐng)域的工作中也涉及電子表格、數(shù)值計(jì)算和預(yù)測(cè)方面的內(nèi)容,但在數(shù)據(jù)科學(xué)實(shí)踐中對(duì)必要的數(shù)學(xué)技能要求卻大不相同。
 

為什么以及如何與眾不同——這是科學(xué)而不是數(shù)據(jù)


考慮一個(gè)Web開(kāi)發(fā)人員(或業(yè)務(wù)分析師),他可能每天需要處理大量的數(shù)據(jù)和信息,但可能沒(méi)有強(qiáng)調(diào)對(duì)該數(shù)據(jù)進(jìn)行建模。通常,數(shù)據(jù)分析的任務(wù)重點(diǎn)在于“ 根據(jù)需求利用數(shù)據(jù)并繼續(xù)推進(jìn)項(xiàng)目 ”,而不是深入探索,數(shù)據(jù)科學(xué)應(yīng)該始終關(guān)注科學(xué)(而不是數(shù)據(jù))。某些工具和技術(shù)會(huì)變得不可或缺,其中大多數(shù)是科學(xué)處理過(guò)程的特點(diǎn):
 

  • 通過(guò)探測(cè)潛在的動(dòng)態(tài)來(lái)建模過(guò)程
  • 構(gòu)建假設(shè)
  • 嚴(yán)格評(píng)估數(shù)據(jù)源的質(zhì)量
  • 量化數(shù)據(jù)和預(yù)測(cè)的不確定性
  • 培養(yǎng)個(gè)人從信息流中識(shí)別隱藏模式的感覺(jué)
  • 清楚地了解模型的局限性
  • 理解數(shù)學(xué)證明及其背后的所有抽象邏輯


這類(lèi)的培訓(xùn),大多數(shù)沒(méi)有考慮正數(shù)而是講解抽象的數(shù)學(xué)實(shí)體(及其屬性和相互關(guān)系),被認(rèn)為是四年制大學(xué)學(xué)位課程標(biāo)準(zhǔn)課程的一部分。個(gè)人不需要以?xún)?yōu)異的成績(jī)從頂尖大學(xué)畢業(yè)來(lái)獲得這種水平的數(shù)學(xué)知識(shí),但不幸的是,過(guò)去的訪問(wèn)量幾乎在變少。
 

展示成功的藍(lán)圖


一般而言,沒(méi)有通用的藍(lán)圖。就其本質(zhì)而言,數(shù)據(jù)科學(xué)并不依賴(lài)于特定的學(xué)科領(lǐng)域,并且可能是在單個(gè)項(xiàng)目中處理各種現(xiàn)象,如癌癥診斷和社會(huì)行為分析等,這會(huì)產(chǎn)生各種令人眼花繚亂的n維數(shù)學(xué)對(duì)象、統(tǒng)計(jì)分布、優(yōu)化目標(biāo)函數(shù)等。

上面提到的那些東西是什么?如果你對(duì)其補(bǔ)熟悉的話,以下是我們需要學(xué)習(xí)、吸收的內(nèi)容建議。
 

函數(shù)、變量、方程、圖

 


What:從基本的知識(shí)開(kāi)始,如線的方程式到二項(xiàng)式定理及其性質(zhì)。

  • 對(duì)數(shù)、指數(shù)、多項(xiàng)式函數(shù)、有理數(shù)
  • 基本幾何和定理,三角恒等式
  • 實(shí)數(shù)和復(fù)數(shù)的基本屬性
  • 級(jí)數(shù)、總和和不等式
  • 圖表和繪圖、笛卡爾和極坐標(biāo)系統(tǒng)、圓錐曲線


示例:如果想了解在排序后在百萬(wàn)項(xiàng)目數(shù)據(jù)庫(kù)上搜索的運(yùn)行速度,你將會(huì)遇到二進(jìn)制搜索的概念。為了理解它的行為,需要理解對(duì)數(shù)和遞推方程;蛘呤欠治鰰r(shí)間序列的話,可能會(huì)遇到周期函數(shù)和指數(shù)衰減等概念。

學(xué)習(xí)資源

  • 數(shù)據(jù)科學(xué)數(shù)學(xué)技能——Coursera
  • 代數(shù)簡(jiǎn)介——edX
  • 代數(shù)——可汗學(xué)院


統(tǒng)計(jì)

 


What:成長(zhǎng)為數(shù)據(jù)科學(xué)家必須知道的知識(shí)。在關(guān)于數(shù)據(jù)科學(xué)的討論中,再如何強(qiáng)調(diào)掌握統(tǒng)計(jì)和概率的基本概念的重要性都不為過(guò)。該領(lǐng)域的許多從業(yè)者實(shí)際上稱(chēng)經(jīng)典機(jī)器學(xué)習(xí)(非神經(jīng)網(wǎng)絡(luò))只是統(tǒng)計(jì)學(xué)習(xí)。該主題內(nèi)容非常廣泛,重點(diǎn)規(guī)劃大多數(shù)的基本概念即可。

  • 數(shù)據(jù)摘要和描述性統(tǒng)計(jì)、集中趨勢(shì)、方差、協(xié)方差及相關(guān)性
  • 基本概率:基本概念、期望、概率演算、貝葉斯定理、條件概率
  • 概率分布函數(shù):均勻、標(biāo)準(zhǔn)、二項(xiàng)式、卡方、學(xué)生t分布、中心極限定理、
    采樣、測(cè)量、錯(cuò)誤、隨機(jī)數(shù)生成
  • 假設(shè)檢驗(yàn)、A / B檢驗(yàn)、置信區(qū)間、p值,
  • 方差分析、t檢驗(yàn)
  • 線性回歸,正則化


示例:在面試時(shí),作為一名潛在的數(shù)據(jù)科學(xué)家,如果你能掌握上面提到的所有概念,你會(huì)很快地給對(duì)方留下深刻的印象。作為數(shù)據(jù)科學(xué)家,你幾乎每天都會(huì)使用上述中的一些概念。

學(xué)習(xí)資源

  • R專(zhuān)業(yè)統(tǒng)計(jì)學(xué)——Coursera
  • 使用Python進(jìn)行數(shù)據(jù)科學(xué)的統(tǒng)計(jì)和概率—— edX
  • 商業(yè)統(tǒng)計(jì)與分析專(zhuān)業(yè)—— Coursera


線性代數(shù)


 


What:社交網(wǎng)絡(luò)軟件上的朋友推薦、音樂(lè)APP中的歌曲推薦以及使用深度遷移學(xué)習(xí)將自拍照轉(zhuǎn)換為其它風(fēng)格的圖像,這些都有用到線性代數(shù)的知識(shí)。線性代數(shù)是數(shù)學(xué)領(lǐng)域的一個(gè)重要分支,用于理解大多數(shù)機(jī)器學(xué)習(xí)算法如何在數(shù)據(jù)流上工作以創(chuàng)建洞察力。以下是要學(xué)習(xí)的基本內(nèi)容:

  • 矩陣和向量的基本屬性——標(biāo)量乘法、線性變換、轉(zhuǎn)置、共軛、秩、行列式
  • 內(nèi)積外積、矩陣乘法法則和各種算法、逆矩陣
  • 特殊矩陣——方陣、單位矩陣、三角矩陣、稀疏和密集矩陣、單位向量、對(duì)稱(chēng)矩陣、埃爾米特矩陣、斜埃爾米特矩陣和酉矩陣,
  • 矩陣分解、高斯/高斯-若爾消除法,求解Ax = b方程的線性系統(tǒng)
  • 矢量空間、基、跨度、正交性、線性最小二乘,
  • 特征值、特征向量和對(duì)角化,奇異值分解(SVD)

示例:如果你使用過(guò)主成分分析(PCA)降維技術(shù),那么你可能已經(jīng)使用過(guò)奇異值分解來(lái)實(shí)現(xiàn)數(shù)據(jù)集的緊湊維度表示,使得參數(shù)更少。所有神經(jīng)網(wǎng)絡(luò)算法都使用線性代數(shù)技術(shù)來(lái)表示和處理網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)操作。

學(xué)習(xí)資源

  • 線性代數(shù)基礎(chǔ)—— edX
  • 機(jī)器學(xué)習(xí)數(shù)學(xué):線性代數(shù)——Coursera


微積分

 



What:無(wú)論你在大學(xué)期間喜歡它還是討厭它,在數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)領(lǐng)域的許多地方都會(huì)應(yīng)用微積分的概念。它隱藏在線性回歸中最小二乘問(wèn)題的簡(jiǎn)單分析解決方案背后,或者嵌入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新模式的每個(gè)反向傳播中。以下是要學(xué)習(xí)的內(nèi)容:

  • 單變量、極限、連續(xù)性和可微性的函數(shù)
  • 中值定理、不確定性和洛必達(dá)法則
  • 極大值和極小值
  • 乘積和鏈?zhǔn)椒▌t
  • 泰勒級(jí)數(shù)、無(wú)窮級(jí)數(shù)求和/積
  • 積分計(jì)算和中值定理、對(duì)有限和不正確積分的評(píng)價(jià),
  • Beta和Gamma函數(shù)
  • 多變量函數(shù)、極限、連續(xù)性、偏導(dǎo)數(shù)
  • 普通和偏微分方程的基礎(chǔ)知識(shí)


示例:如何實(shí)現(xiàn)邏輯回歸算法,它很有可能使用一種稱(chēng)為“梯度下降”的方法來(lái)找到最小損失函數(shù)。要了解其如何工作,需要使用來(lái)自微積分的基本概念——梯度、導(dǎo)數(shù)、極限和鏈?zhǔn)椒▌t。

學(xué)習(xí)資源

  • 大學(xué)前掌握的微積分——edX
  • 可汗學(xué)院的微積分全部?jī)?nèi)容
  • 機(jī)器學(xué)習(xí)數(shù)學(xué):多變量微積分——Coursera


離散數(shù)學(xué)


 


What:這部分內(nèi)容通常是“數(shù)據(jù)科學(xué)數(shù)學(xué)”方案中較少討論的主題,但事實(shí)是所有現(xiàn)代數(shù)據(jù)科學(xué)都是在計(jì)算系統(tǒng)的幫助下完成的,離散數(shù)學(xué)是這類(lèi)系統(tǒng)的核心。要學(xué)習(xí)的內(nèi)容:

  • 集合、子集和冪集
  • 計(jì)數(shù)函數(shù)、組合學(xué)、可數(shù)性
  • 基本證明技術(shù)——歸納法、反證法
  • 歸納、演繹和命題邏輯的基礎(chǔ)知識(shí)
  • 基本數(shù)據(jù)結(jié)構(gòu)——堆棧、隊(duì)列、圖、數(shù)組、哈希表、樹(shù)
  • 圖表屬性——連接組件、度、最大流量/最小切割概念、圖形著色
  • 遞歸關(guān)系和方程
  • 函數(shù)的增長(zhǎng)和O(n)符號(hào)概念


示例:在任何社交網(wǎng)絡(luò)分析中,你需要知道圖的屬性和快速算法以搜索和遍歷整個(gè)網(wǎng)絡(luò)。在選擇任何算法時(shí),都需要通過(guò)使用 O(n)表示法來(lái)了解時(shí)間和空間復(fù)雜度。

學(xué)習(xí)資源

  • 計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的離散數(shù)學(xué)概論——? Coursera
  • 數(shù)學(xué)思維導(dǎo)論——Coursera
  • 掌握離散數(shù)學(xué):集合、數(shù)學(xué)邏輯——?Udemy


最優(yōu)化、運(yùn)籌學(xué)

 


What:這些主題與應(yīng)用數(shù)學(xué)中的傳統(tǒng)話語(yǔ)沒(méi)什么不同,因?yàn)樗鼈冊(cè)趯?zhuān)業(yè)領(lǐng)域——理論計(jì)算機(jī)科學(xué)、控制理論或運(yùn)籌學(xué)中最為相關(guān)和最廣泛使用。實(shí)際上,每種機(jī)器學(xué)習(xí)算法旨在最小化受各種約束影響的某種估計(jì)誤差,這就是優(yōu)化問(wèn)題。要學(xué)習(xí)的內(nèi)容:
  • 優(yōu)化的基礎(chǔ)——如何制定問(wèn)題
  • 最大值、最小值、凸函數(shù)、全局解
  • 線性規(guī)劃、單純形算法
  • 整數(shù)規(guī)劃
  • 約束編程、背包問(wèn)題


示例:使用最小平方損失函數(shù)的簡(jiǎn)單線性回歸問(wèn)題通常具有精確的解析解,但邏輯回歸問(wèn)題卻沒(méi)有,要理解其中的原因,需要了解優(yōu)化中凸性的概念,這也將闡明為什么我們必須對(duì)大多數(shù)機(jī)器學(xué)習(xí)問(wèn)題中的“近似”解決方案能夠滿意。

資源

  • 業(yè)務(wù)分析中的優(yōu)化方法 ——edX
  • 離散優(yōu)化—— Coursera
  • 確定性?xún)?yōu)化?——edX


與此主題相關(guān)的一些優(yōu)秀文章


  • 15門(mén)數(shù)學(xué)科學(xué)的數(shù)學(xué)公開(kāi)課
  • 如何自學(xué)數(shù)學(xué)科學(xué)的數(shù)學(xué)
  • 數(shù)據(jù)科學(xué)簡(jiǎn)歷需要多少數(shù)學(xué)和統(tǒng)計(jì)數(shù)據(jù)知識(shí)?
  • 19門(mén)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)數(shù)學(xué)與統(tǒng)計(jì)學(xué)的公開(kāi)課
  • 學(xué)習(xí)用于機(jī)器學(xué)習(xí)的數(shù)學(xué)


結(jié)束語(yǔ)


作為一名數(shù)據(jù)科學(xué)家,需要掌握這么多的知識(shí),看起來(lái)似乎有些讓人絕望,但你不需要感到害怕,網(wǎng)絡(luò)上資源很多,可以根據(jù)個(gè)人需求定制自己的學(xué)習(xí)資源列表。在復(fù)習(xí)這些知識(shí)并學(xué)習(xí)新概念之后,個(gè)人能力會(huì)有很大的提升,這是成為數(shù)據(jù)科學(xué)家的一大飛躍。
 

作者:Tirthajyoti Sarkar,數(shù)據(jù)科學(xué)家

文章原標(biāo)題《Essential Math for Data Science — ‘Why’ and ‘How’》,譯者:海棠
 

標(biāo)簽: 數(shù)據(jù)分析 數(shù)據(jù)庫(kù) 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:工業(yè)AI時(shí)代,大數(shù)據(jù)云平臺(tái)未來(lái)5年迎最佳發(fā)展時(shí)機(jī)

下一篇:模塊化數(shù)據(jù)中心如何助力瀘州云數(shù)據(jù)中心建設(shè)?