在日前一場(chǎng)由美國(guó)加州大學(xué)柏克萊分校舉辦的年度大會(huì)上,研究人員們展示其于加速癌癥基因療法以及擴(kuò)展電腦理論領(lǐng)域的研究方面所取得的進(jìn)步。加州大學(xué)柏克萊分校電腦科學(xué)系教授David A.Patterson呼吁,業(yè)界應(yīng)共同利用百萬個(gè)基因庫以推動(dòng)癌癥治療的工作。目前彼此獨(dú)立的基因庫擁有不到1萬件基因資訊,其中有許多還只是基因的部份片段。
“目前可說是藉由電腦科學(xué)來建立快速且精確的基因管線,并促進(jìn)個(gè)人化治療的大好時(shí)機(jī),我希望能盡快利用這個(gè)來幫助我和我的家庭,”Patterson并透露,目前研究人員們經(jīng)常在完成實(shí)驗(yàn)后刪除基因資料。
電腦科學(xué)家David Patterson期望透過巨量資料分析方法克服癌癥基因組的問題。
Patterson協(xié)助開發(fā)了一款名為SNAP的工具,這款工具明顯提供了更快且更精確地基因分析,目前也已被癌癥研究人員所廣泛使用。不過,仍然需要基準(zhǔn)工具來改善在目前這一領(lǐng)域中所使用仍然具有高度主觀性的方法,他指出。
另外,加州大學(xué)準(zhǔn)備花費(fèi)6,000萬美元成立一所新的學(xué)院,期望未來的十年內(nèi)能在電腦科學(xué)上實(shí)現(xiàn)新的突破?!拔覀兿胍_發(fā)出一種新的運(yùn)算理論,它將遠(yuǎn)遠(yuǎn)超出目前的研究范疇,并涵蓋其它領(lǐng)域中的問題,”指導(dǎo)這項(xiàng)工作的Richard Karp表示。
“許多現(xiàn)象可被視為具有運(yùn)算特性的,”他指出,”如果仔細(xì)觀察活細(xì)胞的作業(yè)方式,我們可以把它想像為一種資訊處理;而經(jīng)濟(jì)也是一種資訊處理的活動(dòng)?!?
該校還將在今年5月舉辦一場(chǎng)學(xué)術(shù)研討會(huì),以聚集各界的專家共同研究新理論的可能性。
利用巨量資料治療癌癥
Patterson的目標(biāo)在于利用柏克萊分校正開發(fā)中的巨量資料工具,使其得以導(dǎo)入分析癌癥研究的大量基因資料。
這些工具套件包含Spark——一種用于電腦叢集的程式語言,可提供類似谷歌(Google)搜尋引擎使用的Map Reduce功能。柏克萊分析資料分析系統(tǒng)(Data Analytics System)就是一種基于Spark的開放源碼引擎。
柏克萊實(shí)驗(yàn)室(Berkeley Lab)的科學(xué)家們已經(jīng)利用演算法和運(yùn)算管線,詳細(xì)整理出大量的影像組合,并找出腫瘤的次型態(tài)。它還可分析出異質(zhì)性或腫瘤在不同程度時(shí)所包含的組織結(jié)構(gòu)。接著,該運(yùn)算管線可使用臨床資料進(jìn)行細(xì)胞特征排序,以預(yù)測(cè)病患的預(yù)后。同時(shí),它還使用了大規(guī)模的基因組資料,透過巨量資料分析以確定每一種次型態(tài)的分子相關(guān)性。
研究人員們開發(fā)出可自動(dòng)分析大量腫瘤影像的方法,有助于預(yù)測(cè)癌癥治療的反應(yīng)。箭頭處放大該腫瘤影像中明顯不同的區(qū)域。
目前,巨量資料研究的挑戰(zhàn)在于開發(fā)出一種技術(shù),能夠針對(duì)巨量資料問題取得及時(shí)且具成本效益的答案。柏克萊分校的研究團(tuán)隊(duì)正透過幾項(xiàng)行動(dòng)來解決這一挑戰(zhàn):開發(fā)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的演算法;利用云端中的多臺(tái)機(jī)器;以及發(fā)展集資技術(shù),結(jié)合群眾之力協(xié)助回答對(duì)于其演算法與機(jī)器來說太困難的問題。
透過這些技術(shù)將有助于突破對(duì)于癌癥的治療。為了實(shí)現(xiàn)更快且更具成本效率地處理基因組資料,目前需要的是一個(gè)能夠同時(shí)使用云端機(jī)器的全新基礎(chǔ)架構(gòu)。而當(dāng)有關(guān)癌癥基因的發(fā)現(xiàn)與診斷問題超越這些演算法與機(jī)器時(shí),還需要集合眾人的資源與智慧共同克服挑戰(zhàn)。