(光明日?qǐng)?bào) 2024年8月17日 第七版)
生命科學(xué)的發(fā)展進(jìn)程與自然界生物物種進(jìn)化過程類似,都是由簡(jiǎn)單到復(fù)雜,由單一到多樣,由低級(jí)到高級(jí)。因此,可以把生命科學(xué)的發(fā)展進(jìn)程類比為生命科學(xué)進(jìn)化。
目前,全世界范圍內(nèi)科技領(lǐng)域都存在“三多三少”的現(xiàn)象——科技投入越來越多、論文越來越多、專利越來越多,但顛覆性成果越來越少、原始創(chuàng)新越來越少、專利轉(zhuǎn)化越來越少??茖W(xué)技術(shù)創(chuàng)新模式面臨挑戰(zhàn)。就醫(yī)學(xué)科學(xué)而言,如何確立醫(yī)學(xué)領(lǐng)域的前沿科學(xué)問題,突破人類的認(rèn)知邊界,實(shí)現(xiàn)“從0到1”的突破,是生命科學(xué)進(jìn)化帶給我們的深刻思考。
科學(xué)研究范式的變革
當(dāng)前,新一輪科技革命和產(chǎn)業(yè)變革突飛猛進(jìn),學(xué)科交叉融合趨勢(shì)凸顯,國際科技競(jìng)爭(zhēng)向基礎(chǔ)前沿轉(zhuǎn)移。國際學(xué)術(shù)期刊《科學(xué)》在慶祝其創(chuàng)刊125周年時(shí),公布了125個(gè)最具挑戰(zhàn)性的科學(xué)問題。其中涉及生命科學(xué)的問題占46%,關(guān)系宇宙和地球的問題占16%,與物質(zhì)科學(xué)相關(guān)的問題占14%以上,認(rèn)知科學(xué)問題占9%,其余問題分別涉及數(shù)學(xué)與計(jì)算機(jī)科學(xué)、政治與經(jīng)濟(jì)、能源、環(huán)境和人口等。
這125個(gè)科學(xué)問題,從基礎(chǔ)科學(xué)角度可歸納為三個(gè)基本問題,即對(duì)物質(zhì)本質(zhì)、宇宙起源、生命本質(zhì)的探索。一旦這些問題獲得突破,將是科學(xué)技術(shù)革命性的工作,是突破人類認(rèn)知邊界的重大創(chuàng)新。揭示物質(zhì)的本質(zhì)是為了破解能量和物質(zhì)形成之間的關(guān)系和能量聚集成物質(zhì)(宇宙中63種基本粒子)的過程;研究宇宙的起源是為了破解信息和能量傳遞、轉(zhuǎn)換的機(jī)制,物質(zhì)傳送速度的機(jī)制;破解生命的本質(zhì)是為了揭示生命物質(zhì)互作的復(fù)雜網(wǎng)絡(luò)動(dòng)態(tài)運(yùn)行機(jī)制,為探索決定生命、健康、疾病的分子網(wǎng)絡(luò)調(diào)控規(guī)律提供科學(xué)基礎(chǔ)。
基于上述科學(xué)問題的導(dǎo)向,科學(xué)研究范式急需深刻變革。
科學(xué)研究范式是20世紀(jì)60年代由美國科學(xué)家托馬斯·庫恩提出的??茖W(xué)研究范式是指從事某一領(lǐng)域研究的科學(xué)共同體所共同遵從的信念、理論、價(jià)值觀、科研行為方式,是科學(xué)工作賴以維持運(yùn)轉(zhuǎn)的學(xué)理基礎(chǔ)和實(shí)踐規(guī)范。當(dāng)原有的范式已不能實(shí)現(xiàn)科學(xué)理論的實(shí)質(zhì)性突破,甚至是理論之間多有沖突時(shí),科學(xué)研究范式就會(huì)轉(zhuǎn)變。2007年,圖靈獎(jiǎng)得主吉姆·格雷提出:“信息爆炸迫使科學(xué)家必須將實(shí)驗(yàn)、理論和計(jì)算機(jī)計(jì)算統(tǒng)一起來,建立起一種新的科學(xué)研究范式,數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)(Data-intensive Scientific Discovery),即‘第四范式’。研究?jī)?nèi)容由局部走向系統(tǒng),方法由單一學(xué)科走向?qū)W科交叉,范疇由多層分科走向探索共性?!?/p>
縱觀人類發(fā)展歷史,我們共經(jīng)歷了四次科學(xué)研究范式的轉(zhuǎn)變。第一范式是實(shí)驗(yàn)科學(xué)范式,即基于實(shí)驗(yàn)或經(jīng)驗(yàn)的歸納總結(jié)(Describing natural phenomena)來發(fā)現(xiàn)規(guī)律的科學(xué)范式,鉆木取火、比薩斜塔實(shí)驗(yàn)、拉瓦錫發(fā)現(xiàn)的質(zhì)量守恒定律等,都屬于第一范式。文藝復(fù)興以后,第二范式即理論科學(xué)開始備受推崇,它是以理論為基礎(chǔ)開展研究,通過建立數(shù)學(xué)模型和理論框架(Using models,generalizations)演算、歸納總結(jié),來解釋自然現(xiàn)象的科學(xué)范式,代表性研究為牛頓定律、麥克斯韋方程、門捷列夫的元素周期律、相對(duì)論等。第三范式是計(jì)算機(jī)科學(xué)范式,即利用計(jì)算機(jī)仿真模擬復(fù)雜自然現(xiàn)象(Simulating complex phenomena),用計(jì)算機(jī)和AI模擬代替實(shí)驗(yàn)研究、預(yù)測(cè)結(jié)果的科學(xué)范式,如量子化學(xué)計(jì)算分子動(dòng)力學(xué)模擬、天氣預(yù)報(bào)模擬、核試驗(yàn)?zāi)M、復(fù)雜化學(xué)反應(yīng)模擬等。第四范式是數(shù)據(jù)密集驅(qū)動(dòng)的范式,即以數(shù)據(jù)密集和智能驅(qū)動(dòng)研究,發(fā)現(xiàn)其中的相關(guān)知識(shí)和規(guī)律的研究范式。這種范式通過實(shí)驗(yàn)、采集數(shù)據(jù)或模擬器仿真產(chǎn)生數(shù)據(jù),建立數(shù)據(jù)集,采用數(shù)據(jù)挖掘、降維、升維、機(jī)器學(xué)習(xí)等方法分析計(jì)算,預(yù)測(cè)物質(zhì)性質(zhì)、揭示物質(zhì)互作規(guī)律等,獲取之前未知的新知識(shí)。
生命科學(xué)研究的困惑
今天的科學(xué)研究范式已經(jīng)進(jìn)展到第四范式,但對(duì)生命科學(xué),尤其是醫(yī)學(xué)科學(xué)的研究來講,還大多停留在第一范式,即試圖通過生物學(xué)實(shí)驗(yàn)探索一個(gè)復(fù)雜事物的規(guī)律;也很少采用第二范式,很少用數(shù)理邏輯表征事物之間的邏輯關(guān)系;即便是目前蓬勃興起的元宇宙技術(shù)和數(shù)字孿生技術(shù),實(shí)際上也僅停留在第三范式。要進(jìn)行未知的生命本質(zhì)研究,必須將科學(xué)研究范式推進(jìn)到第四范式,而其關(guān)鍵就在于大數(shù)據(jù)的收集。數(shù)據(jù)和AI有著極為密切的關(guān)系,如果把AI比作工具,數(shù)據(jù)就是生產(chǎn)資料,只有數(shù)據(jù)的質(zhì)量和數(shù)量達(dá)到一定程度,才能被AI工具有效利用。如果原始數(shù)據(jù)的收集很粗糙,就無法轉(zhuǎn)換為特征性的數(shù)據(jù)表征,AI也就不能得出正確結(jié)論。
20世紀(jì),生物學(xué)從傳統(tǒng)的描述性科學(xué)轉(zhuǎn)變成為假設(shè)驅(qū)動(dòng)的實(shí)驗(yàn)科學(xué)。與此緊密聯(lián)系的是,還原論占據(jù)了統(tǒng)治地位,即對(duì)復(fù)雜生命系統(tǒng)的理解可以通過將其拆解為組成部件并逐個(gè)研究。在這種分子生物學(xué)“范式”的指導(dǎo)下,試圖通過認(rèn)識(shí)單個(gè)基因或蛋白質(zhì)的結(jié)構(gòu)與功能來闡釋個(gè)體的生理或病理活動(dòng)。然而,細(xì)胞內(nèi)的真實(shí)世界并非如此。事實(shí)上,我們很難找到真實(shí)世界的因果關(guān)系,即一個(gè)原因必須是一個(gè)結(jié)果的充分條件。例如,在真實(shí)生命的復(fù)雜系統(tǒng)中,mRNA表達(dá)水平及其翻譯產(chǎn)生的蛋白質(zhì)豐度之間存在著復(fù)雜的非線性關(guān)系。
由于慢性病威脅日益增大,現(xiàn)代醫(yī)學(xué)正進(jìn)入一個(gè)新的轉(zhuǎn)型時(shí)期,有三種主要發(fā)展趨勢(shì)值得我們關(guān)注:一是從簡(jiǎn)單性思維的分子生物醫(yī)學(xué)轉(zhuǎn)變到復(fù)雜性思維的系統(tǒng)生物醫(yī)學(xué);二是從基于統(tǒng)計(jì)研究證據(jù)的循證醫(yī)學(xué)轉(zhuǎn)變到關(guān)注個(gè)體分子特征的精確醫(yī)學(xué);三是從以治病為中心的臨床醫(yī)學(xué)轉(zhuǎn)變到以健康為中心的健康醫(yī)學(xué)。
要想實(shí)現(xiàn)這幾個(gè)轉(zhuǎn)變,我們需要厘清目前在生命科學(xué)領(lǐng)域,尤其是醫(yī)學(xué)領(lǐng)域亟待解決的基本科學(xué)問題。在生命科學(xué)領(lǐng)域的研究中,不能僅局限于用先進(jìn)的觀測(cè)手段揭示亞細(xì)胞水平或分子水平的微觀結(jié)構(gòu),因?yàn)檫@些被發(fā)現(xiàn)的靜態(tài)結(jié)構(gòu)并不能表征生命的微觀動(dòng)態(tài)過程。一定的組織結(jié)構(gòu)必定為執(zhí)行一定的功能而存在。細(xì)胞、亞細(xì)胞或分子水平的微觀生命活動(dòng),是基于一定的結(jié)構(gòu)存在所表征的結(jié)構(gòu)間系統(tǒng)互作,并以這種互作行使一定功能的時(shí)空變化動(dòng)態(tài)過程。這就需要我們一要解析細(xì)胞內(nèi)的空間結(jié)構(gòu);二要揭示細(xì)胞內(nèi)結(jié)構(gòu)間的網(wǎng)絡(luò)化系統(tǒng)互作表征;三要探索細(xì)胞內(nèi)結(jié)構(gòu)間系統(tǒng)互作的網(wǎng)絡(luò)化動(dòng)態(tài)時(shí)空演變規(guī)律。因此,要建立新的范式研究生命科學(xué)領(lǐng)域的這三大基本科學(xué)問題。
系統(tǒng)生物學(xué)撥云見日
系統(tǒng)生物學(xué)通過整合經(jīng)典的分子細(xì)胞生物學(xué)、新興的生命組學(xué)以及信息科學(xué)和數(shù)學(xué)等非生物學(xué)科的研究策略和方法,對(duì)生命復(fù)雜系統(tǒng)及其生理病理活動(dòng)進(jìn)行系統(tǒng)性、整體性的檢測(cè)和分析。當(dāng)前,系統(tǒng)生物學(xué)已成為生物學(xué)研究方法的主流。生命組學(xué)變化的多維度研究,可以揭示生物分子間系統(tǒng)性、網(wǎng)絡(luò)化、時(shí)相性互作的生命活動(dòng)規(guī)律。
系統(tǒng)生物學(xué)是一門注重定量研究的學(xué)科,不僅注重分子細(xì)胞生物學(xué)和組學(xué)等“濕實(shí)驗(yàn)”(第一范式),也同樣注重信息科學(xué)和計(jì)算生物學(xué)等“干實(shí)驗(yàn)”(第二范式、第三范式)。成功的系統(tǒng)生物學(xué)研究應(yīng)該是“干實(shí)驗(yàn)”與“濕實(shí)驗(yàn)”的緊密結(jié)合。
人體細(xì)胞內(nèi)是一個(gè)多元異構(gòu)的網(wǎng)絡(luò)化復(fù)雜巨系統(tǒng),要破解上述三大基本科學(xué)問題,需要從揭示細(xì)胞內(nèi)復(fù)雜表型的發(fā)生與發(fā)展的動(dòng)態(tài)過程入手。復(fù)雜表型涉及DNA、RNA、蛋白質(zhì)及表觀遺傳等多個(gè)分子水平的共同作用形式。由于研究策略和分析方法的限制,既往的機(jī)制研究缺乏對(duì)不同分子水平組學(xué)數(shù)據(jù)的整合分析,無法實(shí)現(xiàn)對(duì)復(fù)雜表型分子機(jī)制的充分解釋。因此,有效整合DNA、RNA、蛋白質(zhì)、表觀遺傳等多組學(xué)數(shù)據(jù),不僅可系統(tǒng)揭示復(fù)雜表型發(fā)生與發(fā)展的調(diào)控網(wǎng)絡(luò)與分子特征,闡釋其復(fù)雜分子機(jī)制,還有助于確定多組學(xué)分子標(biāo)志物,在推進(jìn)分子機(jī)制研究的基礎(chǔ)上,實(shí)現(xiàn)從分子機(jī)制理解到疾病診療轉(zhuǎn)化應(yīng)用的跨越式發(fā)展,為建立風(fēng)險(xiǎn)評(píng)估與精準(zhǔn)疾病診療模型以及探索有效的監(jiān)測(cè)與預(yù)警方法奠定基礎(chǔ)。具體思路如下:
第一步是對(duì)細(xì)胞內(nèi)多源異構(gòu)生物數(shù)據(jù)分子特征的提取。
高通量技術(shù)的發(fā)展產(chǎn)生了大量與基因、蛋白質(zhì)和代謝相關(guān)的生物組學(xué)數(shù)據(jù)。從這些多源異構(gòu)的生物組學(xué)數(shù)據(jù)中發(fā)現(xiàn)和提煉與疾病相關(guān)的信息,需要借助特征衍生的方法獲取具有高區(qū)分性的特征。目前常用的特征衍生方法主要是對(duì)現(xiàn)有特征進(jìn)行線性或非線性的變換,如四則運(yùn)算特征衍生、交叉組合特征衍生、分組統(tǒng)計(jì)特征衍生等。然而,在特征衍生的過程中往往會(huì)產(chǎn)生大量無效或者低效的特征。如果把這些冗余特征帶入模型中,會(huì)形成維度災(zāi)難,使建模工作無法在合理時(shí)間內(nèi)有效完成,且冗余信息往往會(huì)造成干擾,導(dǎo)致真正有效的信息被掩蓋,模型預(yù)測(cè)效能降低。通過模式識(shí)別中的特征選擇技術(shù),對(duì)高維生物組學(xué)數(shù)據(jù)中蘊(yùn)藏的重要信息進(jìn)行提取、篩選、識(shí)別和分類,也是生物組學(xué)數(shù)據(jù)整合分析的關(guān)鍵步驟。編碼器接受原始特征輸入,將原始特征轉(zhuǎn)換成低維的新特征,解碼器接受新特征并將新特征升維至與原始數(shù)據(jù)相同的維度,以達(dá)到有效數(shù)據(jù)降維和分子特征提取的目的。
第二步是選擇模型,把降維后的數(shù)據(jù)帶入模型,針對(duì)不同的任務(wù)選擇不同模型。
不同模型對(duì)于輸入數(shù)據(jù)的要求不同,因此需要在輸入數(shù)據(jù)之前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,若選擇多層感知機(jī)和集成學(xué)習(xí)模型,需要進(jìn)行多組學(xué)數(shù)據(jù)的表征合并;若選擇卷積神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)模型,需要進(jìn)行高維度表征變換。這樣可以將有效特征壓縮并進(jìn)行低維映射,構(gòu)建交互調(diào)控網(wǎng)絡(luò),對(duì)細(xì)胞事件進(jìn)行預(yù)測(cè)。對(duì)于多組學(xué)數(shù)據(jù)的模型選擇,目前并沒有一個(gè)金標(biāo)準(zhǔn),往往需要根據(jù)具體任務(wù)進(jìn)行選擇。
值得注意的是,目前所有原生人工智能算法的開發(fā)都基于非生命體的工程數(shù)據(jù),并不能完全適配以動(dòng)態(tài)時(shí)空變化為主要異質(zhì)性特征的生物類數(shù)據(jù)。因此,適配人工智能模型的開發(fā)和各級(jí)分子互作關(guān)系數(shù)據(jù)庫的構(gòu)建是生物組學(xué)數(shù)據(jù)整合與交互調(diào)控網(wǎng)絡(luò)解析的關(guān)鍵和瓶頸,需要學(xué)科交叉進(jìn)行聯(lián)合攻關(guān)。
現(xiàn)代生命實(shí)驗(yàn)科學(xué)的主要目的是探尋事物之間的因果關(guān)系,但從大數(shù)據(jù)中獲得的生命科學(xué)知識(shí)基本上是相關(guān)性的,而非因果性的。生物體是一個(gè)復(fù)雜網(wǎng)絡(luò)的巨系統(tǒng),研究者不能控制任何一個(gè)生理或病理活動(dòng)涉及的所有變量。數(shù)據(jù)驅(qū)動(dòng)的研究不依賴于假設(shè),因而研究者不僅可以避開現(xiàn)存理論的限制,以及對(duì)“實(shí)驗(yàn)事實(shí)”的主觀性選擇和判斷,還可以利用各種算法對(duì)獲得的大數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)全新的現(xiàn)象或者事物之間隱藏著的內(nèi)在聯(lián)系。數(shù)據(jù)驅(qū)動(dòng)的生命科學(xué)研究新范式并不追求結(jié)果的完備性。它采用的是一種全新的工作模式——迭代(iterate),即每一次研究工作獲得的成果都不是完備的,需要未來研究者在已有版本的基礎(chǔ)上不斷完善并產(chǎn)生新版本,就像人類基因組從研究啟動(dòng)到今天的幾次迭代不斷完善一樣。知識(shí)就像“未知海洋”中的“島嶼”,隨著“知識(shí)島嶼”的擴(kuò)大,“未知水域”同樣也在擴(kuò)大。不斷拓展人類認(rèn)知邊界的挑戰(zhàn)在于此,探索未知的樂趣也在于此。
(作者:叢斌,系全國人大憲法和法律委員會(huì)副主任委員、中國工程院院士)