中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

癌癥重在預防!用深度學習技術來預測肺癌

2019-08-08    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

對病理學家來說,最困難的工作非判斷患者是否罹患癌癥莫屬,診斷結(jié)果至關重要。然而病理切片的檢查又極其復雜,病理學家需要經(jīng)過多年的訓練,再加上豐富的專業(yè)知識和經(jīng)驗才能勝任。盡管如此,人類病理學家也會出現(xiàn)誤診和漏診。如果癌癥能盡早發(fā)現(xiàn)并及時治療,死亡率就可以降低。于是,人們就研究如何通過深度學習算法,訓練機器學習切片檢查來發(fā)現(xiàn)并預測癌癥,從而提高診斷的效率,對病理學家和患者來說都是很大的幫助。 Predicting Lung Cancer Mutations with Machine Learning(《用深度學習預測肺癌突變》),希望有所啟迪。

本文最初發(fā)布于 Medium 博客,作者 Jerry Wei 翻譯來源: InfoQ

我讀了 Nature Medicine (《自然醫(yī)學》)雜志上的最近一篇文章,文章作者提出了利用機器學習技術,通過深度學習預測肺癌基因突變。他們是如何做到的呢?

注:這篇文章題目為 Classification and mutation prediction from non–small cell lung cancer histopathology images using deep learning(《利用深度學習對非小細胞肺癌組織病理學圖像進行分類和突變預測》),網(wǎng)址為:https://www.nature.com/articles/s41591-018-0177-5

肺癌。 肺癌有兩種主要亞型:腺癌和鱗狀細胞癌。能否對這些亞型進行區(qū)分極其重要,因為每個亞型都有自己的治療方案,針對腺癌和鱗狀細胞癌的靶向治療各不相同。尤其是腺癌需要進行基因突變分析;靶向的原發(fā)性突變包括表皮生長因子受體(epidermal growth factor receptor,EGFR)、間變性淋巴瘤受體酪氨酸激酶(anapestic lymphoma receptor tyrosine kinase,ALK)、腫瘤蛋白 53(tumor protein 53,TP53)和 KRAS 突變。

識別這些突變至關重要,因為每種突變都有專門的治療方法。例如,EGFR 和 ALK 突變已經(jīng)有了美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)批準的靶向治療。目前分析肺癌組織樣本的方法(組織樣本的人工目視檢查)既詳盡,又有時不準確。此外,這種方法也很難區(qū)分腺癌和鱗狀細胞癌。因此,能夠準確分析肺癌組織的自動化機器學習模型將是非常有益的。

 

 

每一類的全切片圖像(whole-slide images,WSI)數(shù)量,其中 LUSC 代表鱗狀細胞癌,LUAD 代表腺癌。圖片來源:Coudray 等人,論文的原作者。

肺癌影像數(shù)據(jù)集

作者使用了來自 NCI 基因組數(shù)據(jù)共享平臺(Genomic Data Commons,GDC)的數(shù)據(jù);他們檢索了大約 1700 張全切片圖像,其中 609 例為鱗狀細胞癌陽性,567 張為腺癌陽性,459 張為正常。他們使用滑窗(sliding-window)算法從這些全切片圖像生成了大約 100 萬個 512x512 像素的窗口;旧希麄冊谡麄組織樣本上滑動一個假象的“窗口”(可以高達 100000x100000 像素),并將每個窗口用做單獨的樣本。然后,他們將得到的 100 萬個窗口進行分割,其中 70% 用作訓練集,15% 用作驗證,15% 用作測試集。

注:GDC(Genomic Data Commons)是美國國家癌癥研究所(National Cancer Institute,NCI)的研究計劃,使命是為癌癥研究界提供統(tǒng)一的數(shù)據(jù)存儲庫,以便在癌癥基因組研究中共享數(shù)據(jù),支持精準醫(yī)學。它包含幾個大規(guī)模的癌癥基因組研究計劃的數(shù)據(jù),包括 TCGA、OCG。而 OCG 包括兩項支持癌癥分子鑒定的計劃,TARGET 和 CGCI。

 

 

本文采用的數(shù)據(jù)處理策略。圖片來源:Coudray 等人,論文的原作者

使用 Inception v3 進行機器學習

作者的模型基于 Inception V3 架構(gòu),它使用不同內(nèi)核大小的卷積和最大池化層組成的 Inception 模塊。* 你說的這個卷積是什么? 我主要講的是卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN);這些神經(jīng)網(wǎng)絡特別擅長圖像處理,而這恰好是本文試圖要做的事情。

注:Inception V3 是深度神經(jīng)網(wǎng)絡的架構(gòu)之一,最早由 Google 于 2014 年發(fā)布 Inception V1,2015 年發(fā)布 Inception V2。Inception V3 在 Inception V2 的基礎上用 RMSProp 代替 SGD,替換了一個 7x7 的卷積層為 3x3 的卷積層。具體詳情可參閱 What is the difference between Inception V2 and Inception V3?

(《Inception V2 與 Inception V3 的區(qū)別》:https://datascience.stackexchange.com/questions/15328/what-is-the-difference-between-inception-v2-and-inception-v3

遷移學習

本文還將遷移學習應用于腺癌和鱗狀細胞癌的分類。但什么是遷移學習?遷移學習基本上是一種使用他人模型的方法。神經(jīng)網(wǎng)絡具有層間權重,這些權重有利于模型的實際運行。因此,如果你能得到這些精確的權重,那么你本質(zhì)上就是復制粘貼模型。這就是所謂的遷移學習——使用他人訓練的權重,然后根據(jù)你自己的目的對其進行微調(diào)。在本例中,作者使用了在 ImageNet 競賽中表現(xiàn)最佳的權重,并對肺癌數(shù)據(jù)進行了微調(diào)。當然,還有一些其他超參數(shù)用于模型,損失函數(shù)(交叉熵)、學習率 (0.1)、權重衰減 (0.9)、動量 (0.9) 和優(yōu)化器(RMSProp)。

 

 

熱圖顯示了模型所觀察的內(nèi)容。圖片來源:Coudray 等人,論文的原作者

訓練

因為他們有兩個不同的任務(預測腺癌和鱗狀細胞癌以及預測腺癌切片的基因突變),他們訓練了模型的多種變體,在第一項任務中,他們訓練模型來預測正常組織與腺癌、鱗狀細胞癌。對于第二項任務,他們訓練模型來預測每個二元基因突變,而不是作為多類分類器 。這意味著它們的實現(xiàn)允許肺癌組織中的每個 512x512 切片對不止一個基因圖片呈陽性。對于這兩項任務,他們對模型進行了 500000 次迭代的訓練。

結(jié)果

他們通過幾種方法驗證了模型的有效性。首先他們將模型與病理學家進行了比較。在獨立的測試集上,被模型錯誤分類的切片中,有 50% 也被病理學家錯誤分類;而被病理學家錯誤分類的切片中,有 83% 被模型正確分類。這被視為模型表現(xiàn)與病理學家不相上下的證據(jù)。作者還計算了模型對每個基因突變的正確率,發(fā)現(xiàn)該模型比彩塑所有的突變要好得多。

 

 

該模型實現(xiàn)的每個突變在 ROC 曲線(Receiver Operating Characteristic,受試者工作特征曲線)面積得分。圖片來源:Coudray 等人,論文的原作者。

這意味著什么?

作者創(chuàng)建了一種學習模型,能夠以合理的正確度對肺癌基因突變進行分類,并能夠識別兩種肺癌亞型之間的差異。這顯示了機器學習的強大功能,它的應用是如何的廣泛。該模型主要用于協(xié)助病理學家進行診斷,使診斷過程仍然保持半手工的狀態(tài)。那么,這個模型還能做什么呢?* 在未來,作者將應用該模型嘗試對較不常見的肺癌進行分類,包括大細胞癌和小細胞癌。引入他們的模型也有可能帶來高精度的肺癌組織的全自動分析,這既減少了分析時間,又減少了潛在的人為錯誤。

也許在未來,我們能夠通過機器學習,讓計算機為人類診斷疾病。

下面列出我認為人們可能感興趣的一些其他資源:

原始論文:https://www.nature.com/articles/s41591-018-0177-5.pdf
該論文的 GitHub 倉庫:https://github.com/ncoudray/DeepPATH

作者:Jerry Wei 譯者:劉志勇

原文鏈接:Predicting Lung Cancer Mutations with Machine Learning

標簽: 深度學習技術

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:再見 Excel!我開源了一款與Python深度集成的神器級 IDE

下一篇:31個驚艷的數(shù)據(jù)可視化作品,讓你感受“數(shù)據(jù)之美”!