近日,華大智造研發(fā)團隊在Nature子刊Nature Machine Intelligence(IF=25.898)上在線發(fā)表了題為Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale的研究成果。研究人員開發(fā)了一種基于對比學習的多模態(tài)單細胞算法工具——Concerto (協(xié)奏曲)?!皡f(xié)奏曲”的命名, 既包含了“對比學習建模細胞表征”的英文首字母,又暗含了組織器官中不同類型、不同狀態(tài)的細胞協(xié)同發(fā)揮作用之意。該算法通過自監(jiān)督訓練的方式,可快速對千萬級無標注的單細胞多組學數(shù)據(jù)進行建模,得到的細胞表征(cell embedding)可以用于自動注釋、多模態(tài)整合、聚類、跨批次整合、參考映射注釋等下游應用。Concerto在各項任務中都展現(xiàn)了優(yōu)異的性能,進一步豐富了單細胞大數(shù)據(jù)領(lǐng)域的算法工具。
Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO研究背景

單細胞多組學工具在解析細胞多樣性的研究中發(fā)揮著至關(guān)重要的作用,可繪制單細胞水平的多組學圖譜,進而從多模態(tài)角度揭示細胞功能或狀態(tài)的異質(zhì)性。百萬甚至千萬級別的單細胞多組學大數(shù)據(jù)需要通過智能高效的計算工具助力科學發(fā)現(xiàn),定義細胞類型和狀態(tài)。同時,已發(fā)表的大量未經(jīng)人工注釋或者注釋顆粒度不夠精細的數(shù)據(jù)集本身也是寶貴的資源,若加以有效利用,可以幫助快速解讀新產(chǎn)生的數(shù)據(jù)集。

目前主流的單細胞數(shù)據(jù)分析工具大多依賴于統(tǒng)計學特征選擇(如高可變基因)和線性降維方法(如主成分分析PCA[1])來提取關(guān)鍵信息,但該預處理方法可能會造成信息量丟失。此外,單細胞數(shù)據(jù)集不可避免地存在不同程度的批次效應,在數(shù)據(jù)整合的過程中需要在保留每個樣本包含的細微生物學狀態(tài)差異前提下完成批次效應的適度去除。隨著單細胞大數(shù)據(jù)時代的到來,亟需可快速構(gòu)建千萬級別單細胞多模態(tài)圖譜并可實現(xiàn)映射注釋的算法。

華大智造自主開發(fā)的Concerto算法,采用人工智能領(lǐng)域新興的對比自監(jiān)督學習框架并進行優(yōu)化適配,以應用在海量單細胞組學數(shù)據(jù)的建模中。何謂對比學習?簡而言之,就是構(gòu)造一個直觀簡潔的學習任務,讓機器去對比和區(qū)分哪些樣本與哪些樣本相似,哪些樣本與哪些樣本不相似,從而學習到每個樣本蘊含的高階特征。這就好比是試圖理解世界的嬰兒,即使還未建立起認知世界的知識框架,也可能會意識到,相比于“史努比”,“加菲貓”和“黑貓警長”長得更像。嬰兒通過比較不同物體之間的異同,或許可以學習到這些物體最重要的特征。

Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO

對比學習示意圖

相比于傳統(tǒng)的監(jiān)督學習,在自監(jiān)督學習中,機器學習的標簽來自于樣本自身。在真實世界中,有標簽或者說有高質(zhì)量標簽的數(shù)據(jù)集是稀缺的,通過對比學習這樣的自監(jiān)督訓練框架,可以很好地利用大量真實世界未注釋的數(shù)據(jù)集。在機器視覺領(lǐng)域,Google和Meta近年來相繼提出多種對比自監(jiān)督學習算法,包括SimCLR[2]、 MoCo[3]等。在ImageNet分類基準測試中,最新的自監(jiān)督算法甚至能優(yōu)于有監(jiān)督的基線方法。正如圖靈獎得主Yann LeCun所預測,自監(jiān)督學習是AI的未來,它就像人一樣自覺觀察數(shù)據(jù),可能使AI產(chǎn)生類人的推理能力。

在生物學領(lǐng)域,通過新興的單細胞、時空組學工具獲得的全新數(shù)據(jù)集,大大拓展了人類對于復雜生物系統(tǒng)的認知,這些數(shù)據(jù)還有大量未被人類標記或僅僅是依賴于已有知識進行注釋。借鑒機器學習領(lǐng)域中不依賴標簽數(shù)據(jù)的智能建模思想,以無偏的方式去利用好這些全新的單細胞數(shù)據(jù),可以幫助科學家發(fā)現(xiàn)新的細胞類型、細胞狀態(tài),進而重新定義細胞類型。華大智造團隊通過構(gòu)造對比學習任務,讓每個細胞自己跟自己“學習”,類似的細胞離得更近,不類似的細胞離得更遠,從而實現(xiàn)對千萬級別單細胞數(shù)據(jù)的快速建模。基于華大智造自主研發(fā)的便攜、易用、經(jīng)濟友好的DNBelab C4單細胞建庫平臺,結(jié)合GPU的使用,利用Concerto構(gòu)建千萬級別的單細胞參考集僅需1.5h,快速注釋5萬個細胞僅需8s。同時,該模型可以整合不同模態(tài)、不同批次、不同測序平臺和不同單細胞建庫的方法。值得一提的是,Concerto的對比學習架構(gòu)可以有效支持將一個細胞的所有基因作為輸入建模,避免了直接降維過程中的信息丟失,同時該優(yōu)勢對于跨數(shù)據(jù)集的遷移注釋至關(guān)重要,可以更好地擴展跨數(shù)據(jù)集間可利用的交集基因信息。

Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO

華大智造DNBelab C4

Concerto模型架構(gòu)

具體而言,研究團隊對每個細胞通過非對稱的“雙塔”蒸餾模型框架,并借鑒自然語言處理技術(shù)中的隱空間Dropout策略[4],得到一個細胞的兩個不同表征(cell embedding)并使其互為正樣本,而與其他細胞則互為負樣本。通過對比學習在超球面空間[5]上將正樣本拉近,負樣本推開,從而學習到高質(zhì)量的細胞表征(圖1a)。經(jīng)過Concerto訓練好的細胞表征,可以在zero-shot或者few-shot的場景下應用于多種下游分析任務(圖1c)。

Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO

圖1 Concerto模型的結(jié)構(gòu)示意圖

Concerto整合單細胞多模態(tài)數(shù)據(jù)

在RNA和蛋白同時測序的人類外周血單核細胞數(shù)據(jù)集中(PBMC160K),作者利用Concerto進行多模態(tài)數(shù)據(jù)整合,作者發(fā)現(xiàn):細胞的不同模態(tài)信息反應了之前科學家定義的不同細胞分類的顆粒度和類型。例如:CD4 T細胞和CD8 T細胞在只用RNA模態(tài)的情況下,不能很好地區(qū)分,需要加上蛋白的信息;而如果只用蛋白的模態(tài),單核細胞monocytes和樹突狀DC細胞不能很好地分開,需要加上RNA的信息(圖2)。Concerto在整合了RNA和蛋白質(zhì)兩個模態(tài)后,學到了更好的細胞表征:細胞大類和存在細微生物差異的細胞亞群都被很好地區(qū)分,而且也很好地捕捉到了細胞發(fā)育的軌跡。如CD8 T細胞譜系,可以看到CD8 na?ve — CD8 TCM — CD8 TEM的軌跡,并且可以通過高維超球面空間到二維的映射看出,殺傷性的T細胞和NK細胞的距離更近,說明Concerto學習到的映射空間可以將功能接近的細胞互相靠近。

Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO

圖2 Concerto在RNA、蛋白、RNA+蛋白三種設(shè)置下學到的細胞表征

在遷移注釋任務的表現(xiàn)

在公開的胰島細胞數(shù)據(jù)集上(HP)遷移注釋任務中,與目前主流單細胞遷移注釋算法比較,Concerto準確率最高(圖3),超過了紐約基因組中心Rahul Satija團隊開發(fā)的Seurat V4[6]、德國亥姆霍茲慕尼黑中心Fabian Theis團隊開發(fā)的scArches[7]以及Broad研究所Soumya Raychaudhuri團隊開發(fā)的Symphony[8]。人類胰島數(shù)據(jù)集(HP)包括5種單細胞測序方法得到的數(shù)據(jù),Concerto整合4種技術(shù)構(gòu)建了一個參考空間,在這個過程中沒有用到任何標簽信息,只是“each cell learns from itself”。然后把待注釋的數(shù)據(jù)投射到這個參考空間,每個待注釋的細胞都可以“找到”在參考空間里和它最像的k個參考細胞,最后只需要綜合這k個參考細胞的信息就可以為待注釋細胞打上注釋。另外,Concerto除了可以跨技術(shù)平臺進行遷移注釋,也可以跨物種進行遷移注釋。圖3右展示了Concerto利用HP數(shù)據(jù)構(gòu)建參考空間,對鼠胰島(MP)細胞進行注釋的性能。

Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO

圖3 胰島數(shù)據(jù)集上遷移注釋性能比較,

華大智造Concerto模型準確率超過現(xiàn)有方法

就像序列比對工具BLAST 將生物序列數(shù)據(jù)比對到參考基因組的功能一樣,將新產(chǎn)出的包含不同樣本、研究、疾病狀態(tài)的單細胞數(shù)據(jù)集,映射到復雜的、數(shù)百萬細胞的參考圖譜上,可以實現(xiàn)快速識別相關(guān)的細胞狀態(tài)和表型,此種方法將成為單細胞數(shù)據(jù)分析的全新范式。本研究另一亮點在于,利用現(xiàn)有已注釋數(shù)據(jù)構(gòu)建大型的細胞圖譜作為參考(Reference),新的數(shù)據(jù)作為查詢(query),可以直接在Reference上“查找”最相近的“已知“細胞,這樣我們就可以知道query細胞的性質(zhì)了。

構(gòu)建百萬級別免疫細胞參考圖譜,對新冠數(shù)據(jù)進行快速注釋

在COVID-19研究中,研究人員將華大智造DNBelab C4產(chǎn)出的新冠病人外周血單核細胞(PBMC)數(shù)據(jù)與其他研究小組已發(fā)表的通過其他平臺所采集的數(shù)據(jù)進行整合,構(gòu)建了大型新冠病人外周血免疫細胞參考圖譜,涵蓋了健康人及輕型、重型COVID-19患者,并針對查詢數(shù)據(jù)集進行快速注釋,發(fā)現(xiàn)不同感染狀態(tài)差異的免疫學信號。由于在參考數(shù)據(jù)中存在與查詢數(shù)據(jù)類似的與疾病相關(guān)的細胞狀態(tài),所以Concerto可以快速將查詢新冠數(shù)據(jù)集映射到參考圖譜上。Schulte-Schrepping等人[9]的研究主要針對髓系細胞,如單核細胞monocytes和中性粒細胞neutrophils在不同感染狀態(tài)下的差異。通過參考映射的快速注釋,復現(xiàn)了該數(shù)據(jù)集的淋系細胞與其他新冠研究里的一致信號,如Concerto注釋了稀有細胞亞群proliferative-exhausted CD8 T,與Su[10]等人的研究一致。

此前,深圳華大生命科學研究院劉龍奇團隊聯(lián)合中國疾控中心等機構(gòu)科學家利用華大智造C4單細胞平臺進行了大規(guī)模的新冠研究[11],注釋出了activated CD4 T細胞,并發(fā)現(xiàn)這種細胞的豐度會在患者體內(nèi)上調(diào)。此次,利用Concerto構(gòu)建的新冠參考數(shù)據(jù)集包含了這種細胞類型,也成功在Schulte-Schrepping的數(shù)據(jù)集中注釋出activated CD4 T細胞,同時發(fā)現(xiàn)Schulte-Schrepping數(shù)據(jù)集中新冠患者的activated CD4 T細胞差異高表達CD2AP基因,也與此前華大研究院等人的發(fā)現(xiàn)一致。通過此項研究也證明,華大智造C4平臺產(chǎn)出的數(shù)據(jù)可以和其他平臺適配。將來科研人員可以利用Concerto構(gòu)建整合不同單細胞數(shù)據(jù)產(chǎn)出平臺的大型參考數(shù)據(jù)集,用以對新產(chǎn)出的數(shù)據(jù)進行快速注釋。

Nature子刊!華大智造研發(fā)團隊發(fā)布基于對比學習的多模態(tài)單細胞算法,快速實現(xiàn)千萬級單細胞多組學數(shù)據(jù)建模-肽度TIMEDOO

圖4 將健康人與COVID-19患者整合的參考數(shù)據(jù)集對查詢數(shù)據(jù)集進行遷移注釋

華大智造高級副總裁倪鳴博士表示:“單細胞組學的研究已進入高通量、大數(shù)據(jù)、多模態(tài)的研究階段,此次基于對比學習的最新人工智能方法Concerto 用于單細胞參考數(shù)據(jù)集映射注釋成果的發(fā)布,豐富了華大智造此前自主研發(fā)DNBelab C4單細胞平臺,實現(xiàn)了單細胞組學領(lǐng)域硬件與軟件的深度結(jié)合,相信未來會在單細胞領(lǐng)域賦能更多用戶?!?/strong>單細胞多組學時代的來臨,使得重新定義細胞成為可能。華大集團聯(lián)合創(chuàng)始人、董事長汪建曾提出 “六定”:定性、定量、定位、定時、定向、定標。未來,華大智造將繼續(xù)開發(fā)用于單細胞多組學研究的硬件、試劑、軟件工具,支持科研人員提高研究效率、拓展探索的邊界。
華大智造楊夢、楊悅羽霄、謝辰熙是文章的第一作者
本研究所使用數(shù)據(jù)均來自公開已發(fā)表數(shù)據(jù)
參考文獻
[1]??Abdi, H. & Williams, L. J. Principal component analysis. Wiley Interdiscip.Rev. Comput. Stat. 2, 433–459 (2010).

[2]??Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. A simple framework for

contrastive learning of visual representations in International Conference on

Machine Learning 1597–1607 (PMLR, 2020).

[3]??He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for

unsupervised visual representation learning in Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition 9729–9738 (IEEE,

2020).

[4]??Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R.

Dropout: a simple way to prevent neural networks from overfitting. J. Mach.

Learn. Res. 15, 1929–1958 (2014).

[5]??Wang, T. & Isola, P. Understanding contrastive representation learning

through alignment and uniformity on the hypersphere. In International

Conference on Machine Learning 9929–9939 (PMLR, 2020).

[6]??Hao, Y. et al. Integrated analysis of multimodal single-cell data. Cell 184,

3573–3587.e29 (2021).

[7]??Lotfollahi, M. et al. Mapping single-cell data to reference atlases by transfer

learning. Nat. Biotechnol. 40, 121–130 (2022).

[8]??Kang, J. B. et al. Efficient and precise single-cell reference atlas mapping with

Symphony. Nat. Commun. 12, 1–21 (2021).

[9]??Schulte-Schrepping, J. et al. Severe COVID-19 is marked by a dysregulated

myeloid cell compartment. Cell 182, 1419–1440 (2020).

[10]??Su, Y. et al. Multi-omics resolves a sharp disease-state shift between mild and

moderate COVID-19. Cell 183, 1479–1495 (2020).

[11]? Zhu, L. et al. Single-cell sequencing of peripheral mononuclear cells reveals

distinct immune response landscapes of COVID-19 and influenza patients.

Immunity 53, 685–696 (2020).