站長資訊平臺

統(tǒng)計學概論和醫(yī)療臨床大數(shù)據(jù)分析

2019-12-13 來源：raincent

作者：王曉剛來源：THU數(shù)據(jù)派

本文內(nèi)容選自加拿大約克大學數(shù)學統(tǒng)計系終身教授王曉剛于近期在清華大數(shù)據(jù)“技術(shù)·前沿”系列講座所做的題為《統(tǒng)計學概論和醫(yī)療臨床大數(shù)據(jù)分析》的演講。

王曉剛：任正非曾說人工智能就是統(tǒng)計學。我們一般對統(tǒng)計的認知有兩個層面。第一個層面，很多人認為統(tǒng)計是一個非常容易的事情，就是數(shù)數(shù)。比如統(tǒng)計門診接待了多少病人，其中有多少人是高血壓。但是統(tǒng)計的另外一個層面，或者叫統(tǒng)計學，其實它有更深層的含義。

在解釋更深層的含義之前，我們先說一下醫(yī)工結(jié)合，這也是我的研究之一。醫(yī)工結(jié)合是非常辛苦的一件事，世界上最遠的距離是醫(yī)和工的距離。因為從根本上講，工程師認為世界上什么事情都是確定的，但醫(yī)生認為是不確定的。而統(tǒng)計學正好是醫(yī)工之間很好的橋梁，因為統(tǒng)計學是在不確定的情況下找到確定性——既承認有不確定性又要在雜亂無章當中找到模式或者說確定性。

統(tǒng)計講的是一種樸素的哲學思想，雖然有幾百年的歷史但也是一個比較新的學科，人們對它的認識有很多誤區(qū)，就是因為statistics在英文是兩個含義：一個含義是你可能在數(shù)的數(shù)，還有一個含義是統(tǒng)計學這門課程。如果你查字典，會看到統(tǒng)計是唯一一門能夠科學地收集數(shù)據(jù)、處理數(shù)據(jù)和作為預測的一個學科。統(tǒng)計是唯一一個能夠處理不確定性的科學，而在診斷的時候有大量的不確定性，所以統(tǒng)計才是醫(yī)工結(jié)合的橋梁。統(tǒng)計第一要處理不確定性，第二要給出可預測性。

統(tǒng)計學和人工智能也有很大的聯(lián)系。在國外，人工智能逐漸步入理性階段。在AlphaGo出現(xiàn)之后，人們認為人工智能無所不能，當跳進無數(shù)坑之后發(fā)現(xiàn)雖然不是什么都能干但挺有用。一個很典型的例子，就是很多有名的項目說得很好，到最后沒辦法實現(xiàn)。

國外發(fā)現(xiàn)人工智能的問題有時候不在于算法而在于概念不清，界定不對，維度不高。當維度根本不夠高的時候，無論機器有多強，無論算法有多好，都算不精準。有些人說他們算得精準因為他們只會想哪些case我算得準，算不準的就不說了。而維度不高的原因，大部分是在收集數(shù)據(jù)之前沒有對問題進行透徹的分析，收集數(shù)據(jù)時也沒有下太多功夫。

現(xiàn)在深度學習在醫(yī)學圖像上取得了革命性突破，但依然存在很多問題，比如準確度衡量標準的問題。一般來說準確率的衡量標準有特異性和敏感性，在數(shù)學上和統(tǒng)計上可以證明，敏感性、特異性經(jīng)常是不能兼顧。

以前做人工智能的人認為敏感性越高越好，但他們沒有考慮醫(yī)療費用的維度，如果發(fā)病率是10%，特異性是70%，也就是說這個人沒有病的準確率是70%，那意味著90%沒病當中的人，其中30%有誤報，這樣會把20%的人嚇到醫(yī)院里，造成醫(yī)院擁堵，淹沒真正需要救治的人。此時算法的敏感性越高，造成的問題越多。

過去很多文章說的準確度其實都是敏感度。以前很多號稱高敏感度的其實并不可靠。因為是有一定的“作弊”嫌疑。比如有一個模型，調(diào)參一定是用模型的數(shù)據(jù)。再用這個調(diào)完的參數(shù)模型，反回來預測那些數(shù)據(jù)，一般來說效果不會差。所以現(xiàn)在深度學習要么特別管用，要么特別不管用。

從表面上來看，統(tǒng)計無非就是數(shù)據(jù)整理、數(shù)據(jù)挖掘、模型建立，知識轉(zhuǎn)化和預測未來，然而真實的統(tǒng)計不是這樣的。很多人都集中在模型的建立和算法這里，然而對數(shù)據(jù)整理和挖掘的重視程度不夠。

但是對于統(tǒng)計學，還要關注什么樣的數(shù)據(jù)支撐你的問題、采集數(shù)據(jù)的方式及數(shù)據(jù)的整理;如何處理缺失數(shù)據(jù)、高噪聲數(shù)據(jù)和違反常理的數(shù)據(jù);數(shù)據(jù)挖掘的時候，如何選取有效維度，如何判定噪聲;模型建立后，模型的適用范圍和優(yōu)缺點都要考慮。

以統(tǒng)計的觀點，所有的模型都是錯誤的，因為會有數(shù)據(jù)采集的偏差、維度的缺失以及性能刻畫不足，但并不影響使用，只要知道模型有缺陷就好。還有就是要多和醫(yī)生交流，不斷迭代模型。

中國的文化博大精深，下面從道和術(shù)的角度講講統(tǒng)計。你要有戰(zhàn)術(shù)，也要有戰(zhàn)略。宏觀和局部都要有考慮，或者說是維度和度量的使用是不是正確。要盡可能包含所有維度，選取合適的度量標準。

下面講下統(tǒng)計當中常見的問題：

大家總認為統(tǒng)計顯著性是線性，但在醫(yī)學中這種關系經(jīng)常是非線性。

在醫(yī)學統(tǒng)計中，要關注這個人他跟普通人的區(qū)別在什么地方，不能直接用統(tǒng)計規(guī)律。

這種亂的線點做統(tǒng)計分析的話，根本不會有任何顯著性。

但如果按人群細分，會得到不一樣的結(jié)果。比如逛商場的時間和年齡的關系，假設女性年齡越大，逛商場時間越長，男性年齡越大，逛商場時間越短，這兩條線是交叉的。如果你做線性回歸并不顯著，因為根本就不是一類人，如果你做兩條線，你會發(fā)現(xiàn)特別顯著。

統(tǒng)計學如同寫詩、作畫、雕塑、烹調(diào)。統(tǒng)計絕對不是下載數(shù)據(jù)、訓練模型、調(diào)參就結(jié)束了，而是一個反復的過程。你要考慮到所有的因素，以烹調(diào)為例，我有一個特別好的鍋，功率特別大，我有充足的油�？墒侨绻悴幌床�，菜里全是沙子，沒人能吃這個東西。你首先得要選擇好的食材并認真清理，然后你的火候還要到，肉的品質(zhì)還要好。如果原始數(shù)據(jù)就有很大的問題，無論怎么做最后都是有問題。

我基本上就講這么多，希望大家能對統(tǒng)計學有了一個初步的了解，謝謝大家。

標簽：大數(shù)據(jù)分析醫(yī)療臨床大數(shù)據(jù)

版權(quán)申明：本站文章部分自網(wǎng)絡，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:Spark 誕生頭十年：Hadoop 由盛轉(zhuǎn)衰，統(tǒng)一數(shù)據(jù)分析大行其道

下一篇:數(shù)據(jù)科學家應該避免的5種統(tǒng)計陷阱

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

統(tǒng)計學概論和醫(yī)療臨床大數(shù)據(jù)分析