密碼:

從24小時(shí)到7分鐘——社員于浩澎帶領(lǐng)團(tuán)隊(duì)刷新基因分析“中國速度”


基因測序是一種新型基因檢測技術(shù),基因測序和分析技術(shù)現(xiàn)已應(yīng)用于生育健康、腫瘤個(gè)體化診斷和治療、遺傳病、傳染病檢測、疫苗研發(fā)等領(lǐng)域。人類首次完成人類基因組測序耗費(fèi)了13年,隨著技術(shù)的不斷發(fā)展,到了2019年,測序時(shí)間被縮短到了1天,但這些測序數(shù)據(jù)的分析卻額外還需要1天。這樣的分析速度仍不足以支撐基因測序真正廣泛推廣到臨床應(yīng)用上。想要提升分析效率,繼續(xù)縮短該階段的時(shí)間,這是一個(gè)世界級(jí)的難題。

近日,四川大學(xué)華西醫(yī)院生物醫(yī)學(xué)大數(shù)據(jù)中心將人類全基因組分析時(shí)間從24小時(shí)縮短至7分鐘,刷新了基因分析的“中國速度”,具有跨時(shí)代的意義。這也意味著,該項(xiàng)研究成果直接加速了基因測序從科研到臨床的進(jìn)程,未來將有更多精準(zhǔn)的基因數(shù)據(jù)輔助于醫(yī)療診斷及治療。

九三學(xué)社成都市委社員、華西生物醫(yī)學(xué)大數(shù)據(jù)中心于浩澎副研究員負(fù)責(zé)的這項(xiàng)突破性的研發(fā)成果發(fā)布后,引起了央視新聞的關(guān)注,并進(jìn)行了專題報(bào)道。于浩澎在接受采訪中分享了在基因分析領(lǐng)域追求極致的探索。

于浩澎介紹,按照傳統(tǒng)方案,我們獲取一個(gè)人的遺傳變異信息,大概需要24小時(shí)?,F(xiàn)在經(jīng)過我們方案優(yōu)化,在7分鐘內(nèi)就可以完成,因?yàn)槲覀冞M(jìn)行了兩個(gè)方面的突破,一個(gè)是計(jì)算算力的瓶頸打破,一個(gè)是存儲(chǔ)性能的瓶頸打破。之所以能實(shí)現(xiàn)時(shí)間上質(zhì)的突破,根本在于打破計(jì)算算力和儲(chǔ)存性能的瓶頸。他將其形象地比喻為吃得快的“大嘴巴”和裝得下的“大肚子”:“大嘴巴”實(shí)現(xiàn)了大文件的直通讀取和小文件的聚合讀取,數(shù)據(jù)讀取的效率更高,“大肚子“可以對(duì)數(shù)據(jù)分析的各個(gè)作業(yè)流程進(jìn)行融合調(diào)度的優(yōu)化,I/O流更加順暢,從而實(shí)現(xiàn)了“吃得更多、消化更快”。

研發(fā)團(tuán)隊(duì)在全基因組數(shù)據(jù)分析加速上,以GATK流程為基礎(chǔ),經(jīng)過不斷的流程拆分與重組改寫、不斷的分布式存儲(chǔ)軟硬優(yōu)化打磨,最終完成了速度的飛躍,實(shí)現(xiàn)了30X人類全基因組測序胚系變異分析時(shí)間從24小時(shí)到7分鐘的極限壓縮,同時(shí)保證了分析結(jié)果的準(zhǔn)確性:和GATK結(jié)果高度一致。

于浩澎是九三學(xué)社成都市社員,四川大學(xué)華西醫(yī)院副研究員,華西生物醫(yī)學(xué)大數(shù)據(jù)中心數(shù)據(jù)科學(xué)家,主要從事生物信息學(xué)、醫(yī)療大數(shù)據(jù)和腎臟疾病相關(guān)研究。先后主持國家自然科學(xué)基金青年基金、四川省重點(diǎn)研發(fā)面上項(xiàng)目,骨干參研國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金重點(diǎn)項(xiàng)目等國家、省、部級(jí)重大科技項(xiàng)目6項(xiàng)。近十年在Cell Stem Cell, Nature Communication, Nucleic Acids Research等國際著名學(xué)術(shù)期刊上發(fā)表SCI論著20余篇,其中以第一及通訊作者發(fā)表論文5篇,平均影響因子10.7。任四川省生物信息學(xué)會(huì)委員,F(xiàn)rontiers in Genetics、Genomics Protomeics Bioinformatics等SCI期刊審稿編輯。

于浩澎表示,將繼續(xù)努力做好科學(xué)研究,揭開基因的神秘面紗,用更精準(zhǔn)的基因數(shù)據(jù)輔助醫(yī)療診斷及治療,為醫(yī)學(xué)進(jìn)步發(fā)展做出更大的貢獻(xiàn),促進(jìn)人類的健康福祉。