中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

生物學(xué)是數(shù)據(jù)科學(xué)的下一個爆發(fā)點

2018-07-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
對于數(shù)據(jù)科學(xué)家或初創(chuàng)公司來說,CSB是一個新興領(lǐng)域,將充分利用深度學(xué)習(xí)領(lǐng)域的進展。

CSB將顯著加速治愈人類某些棘手的疾病,或在5至7年時間內(nèi)成為下一代獨角獸的基石。

或許只有當(dāng)你真正參與其中才能更好地描述這一切,比如通過面部識別技術(shù)在Facebook上標(biāo)記你朋友的臉,或者為旅行平臺創(chuàng)建聊天機器人,或者努力治愈癌癥并延長人類的壽命。

這不就是生物信息學(xué)嗎?

與大多數(shù)重要的創(chuàng)新一樣,CSB并非新生事物。1978年,人們發(fā)現(xiàn)了限制性內(nèi)切酶,并開始使用它,這被看成是第一次在生物學(xué)上使用工程概念。

就像深度學(xué)習(xí)不得不等待MPP和使用GPU來加速計算一樣,從2003年解碼人類基因組開始,隨后的15年出現(xiàn)了基因組數(shù)據(jù)大爆炸,但CSB仍然停留在概念階段。

早期的生物信息學(xué)試圖解決基因組學(xué)初始階段的問題。例如,如何組裝全基因組模型或使用SNP(單核苷酸多態(tài)性)來標(biāo)記DNA的特定區(qū)域(人類基因組中有大約1000萬個SNP)。

CSB不是一般的生物信息學(xué)

從兩三年前的深度學(xué)習(xí)大爆發(fā)開始,第一個有遠見的生物學(xué)家/數(shù)據(jù)科學(xué)家團隊開始探索如何在看似無關(guān)的學(xué)科中利用這種新的協(xié)同增效效應(yīng)。

為了讓你了解這個領(lǐng)域的新穎性和開放性,Angel.co網(wǎng)站(跟蹤創(chuàng)業(yè)公司的形成和投資情況)列出了超過400萬家創(chuàng)業(yè)公司,其中絕大多數(shù)與科技有關(guān)。有超過5000個公司與“大數(shù)據(jù)”有關(guān),另外5,000家則被歸類為“分析”。只有222家屬于生物信息學(xué),其中只有一部分正在研究CSB。

這感覺就像是2010年前后的深度學(xué)習(xí),距離圖像分類或語音識別準(zhǔn)確率達到95%還有三年時間,這些技術(shù)后來被10,000家新的AI初創(chuàng)公司用在他們的應(yīng)用程序中。

一些例子

毋庸置疑,在迄今為止發(fā)表的材料中,這一領(lǐng)域的創(chuàng)新者一直羞于過多地談?wù)撍麄兊膶S兴惴ǎ撬鼈兪腔谏疃葘W(xué)習(xí)的。以下是一些正在發(fā)生的快照。

Hexagon Bio:四分之三的抗生素和一半的抗癌化合物,包括青霉素和他汀類藥物均來自天然真菌。但是,新化合物的發(fā)現(xiàn)在很大程度上是隨機的,并且依賴研究人員的直覺。

Hexagon挖掘了2000多種菌菇和霉菌的真菌基因組,用以預(yù)測哪些基因簇最可能產(chǎn)生有用的化合物。然后他們將測試微生物與修改過的的DNA部分相結(jié)合,以便產(chǎn)生可能的化合物,用于攻擊癌細胞。他們目前大約有22種化合物具有臨床應(yīng)用的前景。

除了他們的專有算法,Hexagon已經(jīng)開始使用DNA測序和自動化工作站這類工具。他們還使用了一種技術(shù),通過下載和打印基因簇的拷貝,加快DNA的合成速度,F(xiàn)在只需要按下一個按鈕,就可以完成酵母菌的重新設(shè)計。

在過去的18個月中,他們從私人投資者手中籌集了800萬美元資金。

真菌藥物開發(fā)領(lǐng)域特別火爆,競爭者是否能夠脫穎而出,取決于他們的算法能否快速而準(zhǔn)確地發(fā)現(xiàn)有用的DNA片段。

這一領(lǐng)域的其他進展包括:

LifeMine Therapeutics:一家由哈佛大學(xué)化學(xué)生物學(xué)家共同創(chuàng)立的初創(chuàng)企業(yè),已經(jīng)從大量投資者手中獲得了價值5500萬美元的A輪融資,這些公司包括無錫醫(yī)療保健風(fēng)險投資公司、谷歌和默克風(fēng)險投資公司。

Lodo Therapeutics Corp:5月份與羅氏公司簽署了一項有關(guān)基因組篩選的協(xié)議,涉及金額9.69億美元。

Adapsyn Bioscience Inc:1月份收到來自輝瑞的1.62億美元投資,用于微生物挖掘。

并非所有的CSB都涉及實驗工作

BenevolentAI正致力于為炎癥、神經(jīng)退行性疾病、孤兒疾病和罕見的癌癥尋找新型解決方案,但這些都沒能提供足以吸引大型制藥公司投資所需的大規(guī)模市場。BenevolentAI認(rèn)為,我們可能可以從藥物研發(fā)機構(gòu)的未開發(fā)研究中找到這些問題的答案。

他們的方法是開發(fā)一個先進的人工智能平臺,他們稱之為深度判斷系統(tǒng)。這個平臺可以基于人類的判斷和數(shù)據(jù)進行學(xué)習(xí)和推理。

該平臺使用來自科學(xué)論文、專利、臨床試驗信息的大量非結(jié)構(gòu)化數(shù)據(jù),試圖從大量結(jié)構(gòu)化數(shù)據(jù)集中識別出隱蔽的科學(xué)知識,并基于“已知”的東西推斷出應(yīng)該“應(yīng)該”知道什么。

生成模型可能是最前沿的

哈佛大學(xué)化學(xué)教授Alan Aspuru-Guzik利用生成DNN架構(gòu)提出了一種分子結(jié)構(gòu),該分子結(jié)構(gòu)可能可以用于復(fù)制兩種不同藥物的組合特性,例如阿司匹林與布洛芬。有效藥物的組合和有效方案的組合將大大提升我們有效治愈更多疾病的能力,并帶來成本上的效益。

我們經(jīng)常考慮如何在谷歌的智能回復(fù)等應(yīng)用程序中使用生成DNN(RNN、LSTM),為回復(fù)郵件提供建議。實際上,如果我們能夠使用潛在的分子結(jié)構(gòu)作為輸入,AI就能夠建議潛在的組合,這些組合不僅是物理上的,而且還可能具有組合的治療效果。

2017年12月,Aspuru-Guzik和他在哈佛大學(xué)、多倫多大學(xué)和劍橋大學(xué)的同事發(fā)表了生成模型的可喜成果,該模型是基于250,000種類藥物分子訓(xùn)練出來的。

這些公司在尋找什么樣的數(shù)據(jù)科學(xué)家?

對于那些可能對跨領(lǐng)域感興趣的人來說,他們在CNN、RNN、LSTM和QAM(Question Answering Machine,問答機)方面的深度學(xué)習(xí)技能將會成為他們的優(yōu)勢,當(dāng)然具體要取決于公司。我們看到很多工作崗位的描述要求候選人懂Python和R,但沒有特別提到要懂生物信息學(xué),或所述不多。

最多就是有些崗位要求候選人基本熟悉生物學(xué)研究。我們的猜測是,現(xiàn)在沒有那么多數(shù)據(jù)科學(xué)家同時擁有生物學(xué)學(xué)位,并且這些公司重視數(shù)據(jù)科學(xué)多過生物學(xué)。

另一方面,如果我們建議我們的孩子在高中和大學(xué)時學(xué)些什么,數(shù)據(jù)科學(xué)和生物學(xué)的結(jié)合看起來是個不錯的選擇。

我們認(rèn)為這個領(lǐng)域才剛剛開始,要像今天的AI那樣成熟,還需要7到10年的時間。對于現(xiàn)在的年輕數(shù)據(jù)科學(xué)家或者在最近10年內(nèi)從學(xué)校畢業(yè)的新數(shù)據(jù)科學(xué)家來說,這可能是一個很長的職業(yè)生涯。

現(xiàn)在的CSB大致相當(dāng)于福特汽車Model A手工版階段。隨著這個領(lǐng)域的數(shù)據(jù)科學(xué)的進步和自動化程度的提高,在不久的將來,我們有望直接在計算機屏幕上設(shè)計或編輯基因組。

哈佛醫(yī)學(xué)院的基因科學(xué)家George Church說:“我認(rèn)為這可能比太空革命或計算機革命更偉大”。

查看英文原文:https://www.datasciencecentral.com/profiles/blogs/the-next-big-thing-in-data-science-is-biology

標(biāo)簽: 大數(shù)據(jù) 谷歌

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:攻關(guān)克難:大數(shù)據(jù)系統(tǒng)中的預(yù)測技術(shù)

下一篇:常見的七種Hadoop和Spark項目案例