中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

統(tǒng)計(jì)學(xué)概論和醫(yī)療臨床大數(shù)據(jù)分析

2019-12-13    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

作者:王曉剛   來(lái)源:THU數(shù)據(jù)派

本文內(nèi)容選自加拿大約克大學(xué)數(shù)學(xué)統(tǒng)計(jì)系終身教授王曉剛于近期在清華大數(shù)據(jù)“技術(shù)·前沿”系列講座所做的題為《統(tǒng)計(jì)學(xué)概論和醫(yī)療臨床大數(shù)據(jù)分析》的演講。

 

 

 

王曉剛:任正非曾說(shuō)人工智能就是統(tǒng)計(jì)學(xué)。我們一般對(duì)統(tǒng)計(jì)的認(rèn)知有兩個(gè)層面。第一個(gè)層面,很多人認(rèn)為統(tǒng)計(jì)是一個(gè)非常容易的事情,就是數(shù)數(shù)。比如統(tǒng)計(jì)門診接待了多少病人,其中有多少人是高血壓。但是統(tǒng)計(jì)的另外一個(gè)層面,或者叫統(tǒng)計(jì)學(xué),其實(shí)它有更深層的含義。

 

 

在解釋更深層的含義之前,我們先說(shuō)一下醫(yī)工結(jié)合,這也是我的研究之一。醫(yī)工結(jié)合是非常辛苦的一件事,世界上最遠(yuǎn)的距離是醫(yī)和工的距離。因?yàn)閺母旧现v,工程師認(rèn)為世界上什么事情都是確定的,但醫(yī)生認(rèn)為是不確定的。而統(tǒng)計(jì)學(xué)正好是醫(yī)工之間很好的橋梁,因?yàn)榻y(tǒng)計(jì)學(xué)是在不確定的情況下找到確定性——既承認(rèn)有不確定性又要在雜亂無(wú)章當(dāng)中找到模式或者說(shuō)確定性。

 

 

統(tǒng)計(jì)講的是一種樸素的哲學(xué)思想,雖然有幾百年的歷史但也是一個(gè)比較新的學(xué)科,人們對(duì)它的認(rèn)識(shí)有很多誤區(qū),就是因?yàn)閟tatistics在英文是兩個(gè)含義:一個(gè)含義是你可能在數(shù)的數(shù),還有一個(gè)含義是統(tǒng)計(jì)學(xué)這門課程。如果你查字典,會(huì)看到統(tǒng)計(jì)是唯一一門能夠科學(xué)地收集數(shù)據(jù)、處理數(shù)據(jù)和作為預(yù)測(cè)的一個(gè)學(xué)科。統(tǒng)計(jì)是唯一一個(gè)能夠處理不確定性的科學(xué),而在診斷的時(shí)候有大量的不確定性,所以統(tǒng)計(jì)才是醫(yī)工結(jié)合的橋梁。統(tǒng)計(jì)第一要處理不確定性,第二要給出可預(yù)測(cè)性。

 

 

統(tǒng)計(jì)學(xué)和人工智能也有很大的聯(lián)系。在國(guó)外,人工智能逐漸步入理性階段。在AlphaGo出現(xiàn)之后,人們認(rèn)為人工智能無(wú)所不能,當(dāng)跳進(jìn)無(wú)數(shù)坑之后發(fā)現(xiàn)雖然不是什么都能干但挺有用。一個(gè)很典型的例子,就是很多有名的項(xiàng)目說(shuō)得很好,到最后沒(méi)辦法實(shí)現(xiàn)。

 

 

國(guó)外發(fā)現(xiàn)人工智能的問(wèn)題有時(shí)候不在于算法而在于概念不清,界定不對(duì),維度不高。當(dāng)維度根本不夠高的時(shí)候,無(wú)論機(jī)器有多強(qiáng),無(wú)論算法有多好,都算不精準(zhǔn)。有些人說(shuō)他們算得精準(zhǔn)因?yàn)樗麄冎粫?huì)想哪些case我算得準(zhǔn),算不準(zhǔn)的就不說(shuō)了。而維度不高的原因,大部分是在收集數(shù)據(jù)之前沒(méi)有對(duì)問(wèn)題進(jìn)行透徹的分析,收集數(shù)據(jù)時(shí)也沒(méi)有下太多功夫。

 

 

現(xiàn)在深度學(xué)習(xí)在醫(yī)學(xué)圖像上取得了革命性突破,但依然存在很多問(wèn)題,比如準(zhǔn)確度衡量標(biāo)準(zhǔn)的問(wèn)題。一般來(lái)說(shuō)準(zhǔn)確率的衡量標(biāo)準(zhǔn)有特異性和敏感性,在數(shù)學(xué)上和統(tǒng)計(jì)上可以證明,敏感性、特異性經(jīng)常是不能兼顧。

 

 

以前做人工智能的人認(rèn)為敏感性越高越好,但他們沒(méi)有考慮醫(yī)療費(fèi)用的維度,如果發(fā)病率是10%,特異性是70%,也就是說(shuō)這個(gè)人沒(méi)有病的準(zhǔn)確率是70%,那意味著90%沒(méi)病當(dāng)中的人,其中30%有誤報(bào),這樣會(huì)把20%的人嚇到醫(yī)院里,造成醫(yī)院擁堵,淹沒(méi)真正需要救治的人。此時(shí)算法的敏感性越高,造成的問(wèn)題越多。

 

 

過(guò)去很多文章說(shuō)的準(zhǔn)確度其實(shí)都是敏感度。以前很多號(hào)稱高敏感度的其實(shí)并不可靠。因?yàn)槭怯幸欢ǖ?ldquo;作弊”嫌疑。比如有一個(gè)模型,調(diào)參一定是用模型的數(shù)據(jù)。再用這個(gè)調(diào)完的參數(shù)模型,反回來(lái)預(yù)測(cè)那些數(shù)據(jù),一般來(lái)說(shuō)效果不會(huì)差。所以現(xiàn)在深度學(xué)習(xí)要么特別管用,要么特別不管用。

 

 

從表面上來(lái)看,統(tǒng)計(jì)無(wú)非就是數(shù)據(jù)整理、數(shù)據(jù)挖掘、模型建立,知識(shí)轉(zhuǎn)化和預(yù)測(cè)未來(lái),然而真實(shí)的統(tǒng)計(jì)不是這樣的。很多人都集中在模型的建立和算法這里,然而對(duì)數(shù)據(jù)整理和挖掘的重視程度不夠。

但是對(duì)于統(tǒng)計(jì)學(xué),還要關(guān)注什么樣的數(shù)據(jù)支撐你的問(wèn)題、采集數(shù)據(jù)的方式及數(shù)據(jù)的整理;如何處理缺失數(shù)據(jù)、高噪聲數(shù)據(jù)和違反常理的數(shù)據(jù);數(shù)據(jù)挖掘的時(shí)候,如何選取有效維度,如何判定噪聲;模型建立后,模型的適用范圍和優(yōu)缺點(diǎn)都要考慮。

以統(tǒng)計(jì)的觀點(diǎn),所有的模型都是錯(cuò)誤的,因?yàn)闀?huì)有數(shù)據(jù)采集的偏差、維度的缺失以及性能刻畫(huà)不足,但并不影響使用,只要知道模型有缺陷就好。還有就是要多和醫(yī)生交流,不斷迭代模型。

 

 

中國(guó)的文化博大精深,下面從道和術(shù)的角度講講統(tǒng)計(jì)。你要有戰(zhàn)術(shù),也要有戰(zhàn)略。宏觀和局部都要有考慮,或者說(shuō)是維度和度量的使用是不是正確。要盡可能包含所有維度,選取合適的度量標(biāo)準(zhǔn)。

 

 

下面講下統(tǒng)計(jì)當(dāng)中常見(jiàn)的問(wèn)題:

大家總認(rèn)為統(tǒng)計(jì)顯著性是線性,但在醫(yī)學(xué)中這種關(guān)系經(jīng)常是非線性。

在醫(yī)學(xué)統(tǒng)計(jì)中,要關(guān)注這個(gè)人他跟普通人的區(qū)別在什么地方,不能直接用統(tǒng)計(jì)規(guī)律。

這種亂的線點(diǎn)做統(tǒng)計(jì)分析的話,根本不會(huì)有任何顯著性。

但如果按人群細(xì)分,會(huì)得到不一樣的結(jié)果。比如逛商場(chǎng)的時(shí)間和年齡的關(guān)系,假設(shè)女性年齡越大,逛商場(chǎng)時(shí)間越長(zhǎng),男性年齡越大,逛商場(chǎng)時(shí)間越短,這兩條線是交叉的。如果你做線性回歸并不顯著,因?yàn)楦揪筒皇且活惾,如果你做兩條線,你會(huì)發(fā)現(xiàn)特別顯著。

 

 

統(tǒng)計(jì)學(xué)如同寫(xiě)詩(shī)、作畫(huà)、雕塑、烹調(diào)。統(tǒng)計(jì)絕對(duì)不是下載數(shù)據(jù)、訓(xùn)練模型、調(diào)參就結(jié)束了,而是一個(gè)反復(fù)的過(guò)程。你要考慮到所有的因素,以烹調(diào)為例,我有一個(gè)特別好的鍋,功率特別大,我有充足的油。可是如果你不洗菜,菜里全是沙子,沒(méi)人能吃這個(gè)東西。你首先得要選擇好的食材并認(rèn)真清理,然后你的火候還要到,肉的品質(zhì)還要好。如果原始數(shù)據(jù)就有很大的問(wèn)題,無(wú)論怎么做最后都是有問(wèn)題。

我基本上就講這么多,希望大家能對(duì)統(tǒng)計(jì)學(xué)有了一個(gè)初步的了解,謝謝大家。

標(biāo)簽: 大數(shù)據(jù)分析  醫(yī)療臨床大數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:Spark 誕生頭十年:Hadoop 由盛轉(zhuǎn)衰,統(tǒng)一數(shù)據(jù)分析大行其道

下一篇:數(shù)據(jù)科學(xué)家應(yīng)該避免的5種統(tǒng)計(jì)陷阱