中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何用Julia做數(shù)據(jù)統(tǒng)計(jì)?這里有一本全面教材(附代碼圖示)

2019-07-29    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

去年 8 月份,MIT 正式發(fā)布了 Julia 1.0,在開發(fā)者社區(qū)引起了很大的轟動(dòng)。這一語(yǔ)言易于使用、速度快、效率高,在科學(xué)計(jì)算、數(shù)據(jù)處理、機(jī)器學(xué)習(xí)領(lǐng)域都非常受歡迎。那么,這么好用的語(yǔ)言要怎么學(xué)呢?近日,來自昆士蘭大學(xué)的 Hayden Klok、Yoni Nazarathy 撰寫了一本結(jié)合統(tǒng)計(jì)學(xué)和 Julia 語(yǔ)言的教程,不僅將 Julia 作為工具介紹為讀者,還梳理了機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)和人工智能所需的統(tǒng)計(jì)學(xué)基本概念。

目前,作者已將該書的草稿開源。

書籍鏈接:https://people.smp.uq.edu.au/YoniNazarathy/julia-stats/StatisticsWithJulia.pdf

 

 

在本書「前言」部分,作者介紹了他們的寫作初衷、目標(biāo)讀者、全書概要等信息。

寫作初衷 & 目標(biāo)讀者

寫這本書的最初原因是 2016 年底為昆士蘭大學(xué)的統(tǒng)計(jì)學(xué)課程準(zhǔn)備材料。當(dāng)時(shí),Julia 語(yǔ)言雖然只是 0.5 版,但已經(jīng)顯示出強(qiáng)大的功能和適應(yīng)性。出于這個(gè)原因,我們?cè)谡n程中選擇使用 Julia,因?yàn)樵缙谧寣W(xué)生接觸有關(guān) Julia 的統(tǒng)計(jì)知識(shí),可以讓他們?cè)谖磥淼穆殬I(yè)生涯中熟練使用 Julia 進(jìn)行數(shù)據(jù)科學(xué)、數(shù)值計(jì)算和機(jī)器學(xué)習(xí)任務(wù)。這種選擇當(dāng)時(shí)也遭到了一些學(xué)生和同事的反對(duì),那時(shí)跟現(xiàn)在一樣,R 語(yǔ)言統(tǒng)治著統(tǒng)計(jì)世界,Python 主宰著機(jī)器學(xué)習(xí)世界。那么為什么要選擇 Julia?

主要有三個(gè)原因:高性能、簡(jiǎn)單性和靈活性。Julia 正在迅速成為數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能和一般科學(xué)計(jì)算領(lǐng)域的主要語(yǔ)言之一。它像 R 語(yǔ)言、Python 和 Matlab 一樣易于使用,但由于其類型系統(tǒng)和即時(shí)編譯,它可以更有效地執(zhí)行計(jì)算。這使得它在運(yùn)行時(shí)間和開發(fā)時(shí)間方面都很快。此外,還有多種多樣的 Julia 包。這其中就包括數(shù)據(jù)科學(xué)家、統(tǒng)計(jì)學(xué)家或機(jī)器學(xué)習(xí)從業(yè)者需要的高級(jí)方法。因此,該語(yǔ)言具有廣泛的應(yīng)用范圍。

編寫本書的目的是為了梳理機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)和人工智能所需的統(tǒng)計(jì)學(xué)基本概念。這是為了將 Julia 作為計(jì)算工具介紹給讀者。本書還旨在為數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)從業(yè)者、生物統(tǒng)計(jì)學(xué)家、金融專業(yè)人士以及工程師提供參考,幫他們重新回顧統(tǒng)計(jì)學(xué)知識(shí)或者填補(bǔ)理解空白。在當(dāng)今世界,這些學(xué)生、專業(yè)人士或研究人員經(jīng)常使用先進(jìn)的方法和技術(shù)。然而,我們常常需要退一步,探索或重新審視基本概念。借助 Julia 等編程語(yǔ)言重新審視這些概念,可以使概念具體化。

現(xiàn)在,距離我們開始寫這本書已經(jīng)兩年半了,Julia 也已經(jīng)有了 1.0 以上的版本。這本書也逐漸完善了。任何想要使用 Julia 的人都可以輕松部署 Julia。然而,目前 Julia 的許多用戶都是核心開發(fā)人員,他們?yōu)檎Z(yǔ)言的標(biāo)準(zhǔn)庫(kù)以及廣泛的程序包生態(tài)系統(tǒng)做出了貢獻(xiàn)。因此,目前可用的大部分 Julia 資料都是針對(duì)其他開發(fā)人員而非最終用戶。這就是我們的書發(fā)揮作用的地方,因?yàn)樗菫樽罱K用戶編寫的。

代碼示例是以簡(jiǎn)單的格式編寫的,有時(shí)會(huì)犧牲效率和通用性,但更易于閱讀。每個(gè)代碼示例旨在傳達(dá)某一特定的統(tǒng)計(jì)知識(shí)點(diǎn),同時(shí)會(huì)介紹 Julia 編程概念。在某種程度上,代碼示例能讓人想到老師在講座中用來說明概念的示例。想了解本書的內(nèi)容,不需要事先了解統(tǒng)計(jì)知識(shí),實(shí)際上只需要了解一些基本的編程經(jīng)驗(yàn)和基本數(shù)學(xué)符號(hào)即可。

 

 

全書概要

該書共包含 10 章和 3 個(gè)附錄。可以連續(xù)閱讀,也可以自己決定閱讀順序。

 

 

第 1 章是對(duì) Julia 的介紹,包括它的設(shè)置、包管理器和本書中使用的主要包。為了說明一些語(yǔ)言的特性,通過代碼示例介紹一些基本語(yǔ)法和程序結(jié)構(gòu)。

 

 

第 2 章探討基本概率,重點(diǎn)關(guān)注事件、結(jié)果、獨(dú)立性和條件概率概念。我們提出了幾個(gè)典型的概率示例以及探索性的仿真代碼。

 

 

 

 

第 3 章探討了隨機(jī)變量和概率分布,重點(diǎn)介紹 Julia 分布包的使用。將離散、連續(xù)、單變量和多變量概率分布作為一個(gè)教學(xué)任務(wù)加以介紹和探討。這是通過仿真和顯式分析以及繪制分布的相關(guān)函數(shù)圖來完成的,如 PMF、PDF、CDF 等。

 

 

第 4 章暫時(shí)不談概率概念,重點(diǎn)介紹了數(shù)據(jù)處理、數(shù)據(jù)匯總和數(shù)據(jù)可視化。引入 DataFrame 的概念作為存儲(chǔ)可能丟失值的異構(gòu)數(shù)據(jù)類型的機(jī)制。數(shù)據(jù)幀在 Julia 中是數(shù)據(jù)科學(xué)和統(tǒng)計(jì)的重要組成部分,就像在 R 和 Python 中一樣。本章還介紹了經(jīng)典描述統(tǒng)計(jì)學(xué)及其在 Julia 中的應(yīng)用。此外,還引入了核密度估計(jì)和經(jīng)驗(yàn)累積分布函數(shù)等概念。本章最后將介紹使用文件的一些基本功能。

 

 

第 5 章介紹了一般的統(tǒng)計(jì)推斷思想。通過仿真和分析實(shí)例給出了樣本均值和樣本方差的抽樣分布,說明了中心極限定理和相關(guān)結(jié)果。然后探討統(tǒng)計(jì)估計(jì)的一般概念,包括矩量法和最大似然估計(jì)方法的基本例子,然后是簡(jiǎn)單的置信區(qū)間。本章還介紹了統(tǒng)計(jì)假設(shè)檢驗(yàn)的基本概念,以及貝葉斯統(tǒng)計(jì)的基本概念。

 

 

 

 

第 6 章介紹了一個(gè)和兩個(gè)樣本的各種實(shí)際置信區(qū)間。本章從均值的標(biāo)準(zhǔn)置信區(qū)間開始,然后發(fā)展到更現(xiàn)代的 bootstrap 方法和預(yù)測(cè)區(qū)間。本章還是研究模型假設(shè)對(duì)推理影響的切入點(diǎn)。

 

 

第 7 章側(cè)重于假設(shè)檢驗(yàn)。本章從總均值的標(biāo)準(zhǔn) t 檢驗(yàn)開始,然后介紹兩種均值比較的假設(shè)檢驗(yàn)。然后,進(jìn)行方差分析(ANOVA),以及檢查獨(dú)立性和擬合優(yōu)度的假設(shè)檢驗(yàn)。接下來向讀者介紹功率曲線。本章最后介紹了一個(gè)很少涉及到的性質(zhì),即 p 值的分布。

 

 

第 8 章介紹了最小二乘和統(tǒng)計(jì)線性回歸模型。它首先介紹最小二乘法,然后進(jìn)入線性回歸統(tǒng)計(jì)模型,包括假設(shè)檢驗(yàn)和置信帶。還探討了其他回歸概念。包括假設(shè)檢查、模型選擇、交互等。

 

 

第 9 章概述了幾種更先進(jìn)的機(jī)器學(xué)習(xí)概念。首先,介紹了研究數(shù)據(jù)的機(jī)器學(xué)習(xí)范例。包括訓(xùn)練、驗(yàn)證和測(cè)試。然后介紹了機(jī)器學(xué)習(xí)中偏差和方差的概念。這與將正則化思想應(yīng)用于線性模型是相輔相成的。然后本章繼續(xù)討論了邏輯回歸和廣義線性模型。然后介紹了進(jìn)一步的監(jiān)督學(xué)習(xí)方法,包括線性分類、隨機(jī)森林、支持向量機(jī)和深度神經(jīng)網(wǎng)絡(luò)。然后介紹了一些無(wú)監(jiān)督的方法,包括 k 均值和主成分分析(PCA)。本章最后簡(jiǎn)要介紹了馬爾可夫決策過程和強(qiáng)化學(xué)習(xí)。

 

 

 

 

第 10 章討論了應(yīng)用概率的隨機(jī)模型,讓讀者了解隨機(jī)建模和蒙特卡羅模擬的優(yōu)點(diǎn)。本章側(cè)重于動(dòng)態(tài)系統(tǒng),探討了馬爾可夫鏈、離散事件模擬和可靠性分析,以及處理隨機(jī)數(shù)生成的幾個(gè)方面。

標(biāo)簽: 數(shù)據(jù)處理 機(jī)器學(xué)習(xí)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:數(shù)據(jù)共享的核心在定價(jià),數(shù)據(jù)開放與隱私保護(hù)探討

下一篇:p 值是什么?數(shù)據(jù)科學(xué)家用最簡(jiǎn)單的方式告訴你