中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

統(tǒng)計學概論和醫(yī)療臨床大數(shù)據(jù)分析

2019-12-13    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:王曉剛   來源:THU數(shù)據(jù)派

本文內(nèi)容選自加拿大約克大學數(shù)學統(tǒng)計系終身教授王曉剛于近期在清華大數(shù)據(jù)“技術(shù)·前沿”系列講座所做的題為《統(tǒng)計學概論和醫(yī)療臨床大數(shù)據(jù)分析》的演講。

 

 

 

王曉剛:任正非曾說人工智能就是統(tǒng)計學。我們一般對統(tǒng)計的認知有兩個層面。第一個層面,很多人認為統(tǒng)計是一個非常容易的事情,就是數(shù)數(shù)。比如統(tǒng)計門診接待了多少病人,其中有多少人是高血壓。但是統(tǒng)計的另外一個層面,或者叫統(tǒng)計學,其實它有更深層的含義。

 

 

在解釋更深層的含義之前,我們先說一下醫(yī)工結(jié)合,這也是我的研究之一。醫(yī)工結(jié)合是非常辛苦的一件事,世界上最遠的距離是醫(yī)和工的距離。因為從根本上講,工程師認為世界上什么事情都是確定的,但醫(yī)生認為是不確定的。而統(tǒng)計學正好是醫(yī)工之間很好的橋梁,因為統(tǒng)計學是在不確定的情況下找到確定性——既承認有不確定性又要在雜亂無章當中找到模式或者說確定性。

 

 

統(tǒng)計講的是一種樸素的哲學思想,雖然有幾百年的歷史但也是一個比較新的學科,人們對它的認識有很多誤區(qū),就是因為statistics在英文是兩個含義:一個含義是你可能在數(shù)的數(shù),還有一個含義是統(tǒng)計學這門課程。如果你查字典,會看到統(tǒng)計是唯一一門能夠科學地收集數(shù)據(jù)、處理數(shù)據(jù)和作為預測的一個學科。統(tǒng)計是唯一一個能夠處理不確定性的科學,而在診斷的時候有大量的不確定性,所以統(tǒng)計才是醫(yī)工結(jié)合的橋梁。統(tǒng)計第一要處理不確定性,第二要給出可預測性。

 

 

統(tǒng)計學和人工智能也有很大的聯(lián)系。在國外,人工智能逐漸步入理性階段。在AlphaGo出現(xiàn)之后,人們認為人工智能無所不能,當跳進無數(shù)坑之后發(fā)現(xiàn)雖然不是什么都能干但挺有用。一個很典型的例子,就是很多有名的項目說得很好,到最后沒辦法實現(xiàn)。

 

 

國外發(fā)現(xiàn)人工智能的問題有時候不在于算法而在于概念不清,界定不對,維度不高。當維度根本不夠高的時候,無論機器有多強,無論算法有多好,都算不精準。有些人說他們算得精準因為他們只會想哪些case我算得準,算不準的就不說了。而維度不高的原因,大部分是在收集數(shù)據(jù)之前沒有對問題進行透徹的分析,收集數(shù)據(jù)時也沒有下太多功夫。

 

 

現(xiàn)在深度學習在醫(yī)學圖像上取得了革命性突破,但依然存在很多問題,比如準確度衡量標準的問題。一般來說準確率的衡量標準有特異性和敏感性,在數(shù)學上和統(tǒng)計上可以證明,敏感性、特異性經(jīng)常是不能兼顧。

 

 

以前做人工智能的人認為敏感性越高越好,但他們沒有考慮醫(yī)療費用的維度,如果發(fā)病率是10%,特異性是70%,也就是說這個人沒有病的準確率是70%,那意味著90%沒病當中的人,其中30%有誤報,這樣會把20%的人嚇到醫(yī)院里,造成醫(yī)院擁堵,淹沒真正需要救治的人。此時算法的敏感性越高,造成的問題越多。

 

 

過去很多文章說的準確度其實都是敏感度。以前很多號稱高敏感度的其實并不可靠。因為是有一定的“作弊”嫌疑。比如有一個模型,調(diào)參一定是用模型的數(shù)據(jù)。再用這個調(diào)完的參數(shù)模型,反回來預測那些數(shù)據(jù),一般來說效果不會差。所以現(xiàn)在深度學習要么特別管用,要么特別不管用。

 

 

從表面上來看,統(tǒng)計無非就是數(shù)據(jù)整理、數(shù)據(jù)挖掘、模型建立,知識轉(zhuǎn)化和預測未來,然而真實的統(tǒng)計不是這樣的。很多人都集中在模型的建立和算法這里,然而對數(shù)據(jù)整理和挖掘的重視程度不夠。

但是對于統(tǒng)計學,還要關注什么樣的數(shù)據(jù)支撐你的問題、采集數(shù)據(jù)的方式及數(shù)據(jù)的整理;如何處理缺失數(shù)據(jù)、高噪聲數(shù)據(jù)和違反常理的數(shù)據(jù);數(shù)據(jù)挖掘的時候,如何選取有效維度,如何判定噪聲;模型建立后,模型的適用范圍和優(yōu)缺點都要考慮。

以統(tǒng)計的觀點,所有的模型都是錯誤的,因為會有數(shù)據(jù)采集的偏差、維度的缺失以及性能刻畫不足,但并不影響使用,只要知道模型有缺陷就好。還有就是要多和醫(yī)生交流,不斷迭代模型。

 

 

中國的文化博大精深,下面從道和術(shù)的角度講講統(tǒng)計。你要有戰(zhàn)術(shù),也要有戰(zhàn)略。宏觀和局部都要有考慮,或者說是維度和度量的使用是不是正確。要盡可能包含所有維度,選取合適的度量標準。

 

 

下面講下統(tǒng)計當中常見的問題:

大家總認為統(tǒng)計顯著性是線性,但在醫(yī)學中這種關系經(jīng)常是非線性。

在醫(yī)學統(tǒng)計中,要關注這個人他跟普通人的區(qū)別在什么地方,不能直接用統(tǒng)計規(guī)律。

這種亂的線點做統(tǒng)計分析的話,根本不會有任何顯著性。

但如果按人群細分,會得到不一樣的結(jié)果。比如逛商場的時間和年齡的關系,假設女性年齡越大,逛商場時間越長,男性年齡越大,逛商場時間越短,這兩條線是交叉的。如果你做線性回歸并不顯著,因為根本就不是一類人,如果你做兩條線,你會發(fā)現(xiàn)特別顯著。

 

 

統(tǒng)計學如同寫詩、作畫、雕塑、烹調(diào)。統(tǒng)計絕對不是下載數(shù)據(jù)、訓練模型、調(diào)參就結(jié)束了,而是一個反復的過程。你要考慮到所有的因素,以烹調(diào)為例,我有一個特別好的鍋,功率特別大,我有充足的油?墒侨绻悴幌床,菜里全是沙子,沒人能吃這個東西。你首先得要選擇好的食材并認真清理,然后你的火候還要到,肉的品質(zhì)還要好。如果原始數(shù)據(jù)就有很大的問題,無論怎么做最后都是有問題。

我基本上就講這么多,希望大家能對統(tǒng)計學有了一個初步的了解,謝謝大家。

標簽: 大數(shù)據(jù)分析  醫(yī)療臨床大數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Spark 誕生頭十年:Hadoop 由盛轉(zhuǎn)衰,統(tǒng)一數(shù)據(jù)分析大行其道

下一篇:數(shù)據(jù)科學家應該避免的5種統(tǒng)計陷阱