新工具可輕松搜索世界已知10%的基因
一種功能類似于谷歌搜索的計(jì)算工具已經(jīng)證明了它的前景——可以廉價(jià)且容易地搜索生物序列數(shù)據(jù)。開(kāi)發(fā)該工具的瑞士團(tuán)隊(duì)表示,在一項(xiàng)原理驗(yàn)證研究中,他們利用該工具成功索引了10%世界已知DNA、RNA和蛋白質(zhì)序列,同樣的方法也可以用于完成其余部分。
日前,該進(jìn)展在預(yù)印本平臺(tái)bioRxiv上公布。這款名為MetaGraph的計(jì)算工具,可以將公開(kāi)的序列數(shù)據(jù)組織并壓縮為可搜索的格式,就像互聯(lián)網(wǎng)搜索引擎對(duì)網(wǎng)頁(yè)及其內(nèi)容所做的那樣。由此產(chǎn)生的索引可供下載,也可通過(guò)門(mén)戶網(wǎng)站獲得,用戶可以掃描包含數(shù)萬(wàn)億對(duì)堿基對(duì)和數(shù)十億個(gè)氨基酸的序列。
沒(méi)有參與該工作的美國(guó)馬里蘭大學(xué)的計(jì)算生物學(xué)家Rob Patro說(shuō),這項(xiàng)研究“是一項(xiàng)巨大成就,是對(duì)所有公開(kāi)的測(cè)序數(shù)據(jù)進(jìn)行索引這一重大挑戰(zhàn)的里程碑?!边@樣的資源可以助力無(wú)數(shù)領(lǐng)域的研究,從鑒定新病毒到揭示與疾病相關(guān)的RNA序列。雖然MetaGraph并不是唯一一個(gè)旨在實(shí)現(xiàn)這一目標(biāo)的項(xiàng)目,但該團(tuán)隊(duì)已經(jīng)創(chuàng)建了迄今最大的索引,并且使用成本相對(duì)較低。
Patro指出,目前,存儲(chǔ)DNA、RNA和蛋白質(zhì)序列數(shù)據(jù)的存儲(chǔ)庫(kù)呈指數(shù)級(jí)增長(zhǎng)。序列讀取檔案(SRA)是一個(gè)由美國(guó)國(guó)立衛(wèi)生研究院國(guó)家生物技術(shù)信息中心(NCBI)及其合作者運(yùn)營(yíng)的基因數(shù)據(jù)庫(kù),包含了來(lái)自人類和其他動(dòng)物、植物和細(xì)菌等生物體的超過(guò)5萬(wàn)億個(gè)堿基對(duì)(50 PB堿基)。
目前的生物信息學(xué)工具無(wú)法同時(shí)掃描這么多數(shù)據(jù),尤其是對(duì)于那些尚未組裝成基因組的序列,研究人員必須縮小序列集合的范圍。一些研究小組希望通過(guò)將較大數(shù)據(jù)庫(kù)中的序列壓縮成更有組織的數(shù)據(jù)結(jié)構(gòu)或索引來(lái)解決這個(gè)問(wèn)題,以便在可下載文件或在線門(mén)戶中輕松搜索。
2020年,瑞士蘇黎世聯(lián)邦理工學(xué)院的生物信息學(xué)家AndréKahles和計(jì)算機(jī)科學(xué)家Gunnar R?tsch及其同事展示了MetaGraph的早期版本。該團(tuán)隊(duì)使用稱為德布魯因圖的數(shù)學(xué)結(jié)構(gòu)表示序列之間的重疊,從SRA中索引了100多萬(wàn)條記錄,總計(jì)約3 PB。
現(xiàn)在,該團(tuán)隊(duì)利用MetaGraph的改進(jìn)版本索引來(lái)自SRA和其他數(shù)據(jù)庫(kù)的5個(gè)pb堿基,包括來(lái)自微生物、真菌、植物、人類和人類腸道微生物組的序列。新發(fā)布的工具可以將幾十太字節(jié)的數(shù)據(jù)壓縮到大約10gb——小到足以在一臺(tái)個(gè)人電腦上運(yùn)行。構(gòu)建初始索引是很困難且昂貴的,所有SRA都要花費(fèi)數(shù)十萬(wàn)美元,但現(xiàn)在用戶可以比現(xiàn)有技術(shù)更便宜地查詢數(shù)據(jù)集。
英國(guó)諾丁漢特倫特大學(xué)的生物信息學(xué)家和微生物學(xué)家Lesley Hoyles說(shuō),這項(xiàng)工作“非常令人興奮”。隨著數(shù)據(jù)存儲(chǔ)庫(kù)的規(guī)模不斷膨脹,“任何可以減少計(jì)算存儲(chǔ)和能源成本的東西……對(duì)全世界的研究人員來(lái)說(shuō)都是一個(gè)巨大優(yōu)勢(shì)?!盚oyles說(shuō),這種方法可以減少低收入和中等收入國(guó)家的科學(xué)家進(jìn)行基因組研究的障礙。“工作可以在便宜的筆記本電腦上輕松完成?!?/p>
無(wú)獨(dú)有偶,其他研究小組也在取得進(jìn)展。去年,法國(guó)巴斯德研究所從歐洲研究委員會(huì)獲得了200萬(wàn)歐元,啟動(dòng)了IndexThePlanet項(xiàng)目,對(duì)SRA中的所有數(shù)據(jù)進(jìn)行編目。NCBI的研究人員正在開(kāi)發(fā)索引工具Pebblescout?!澳壳斑@是一個(gè)非?;钴S的領(lǐng)域?!庇?guó)巴斯大學(xué)的計(jì)算生物學(xué)家Zamin Iqbal說(shuō)。他曾參與“所有細(xì)菌”項(xiàng)目,該項(xiàng)目旨在收集細(xì)菌序列數(shù)據(jù),使其更容易搜索。
Patro認(rèn)為,由于受MetaGraph索引大小的限制,其在一些特別大的任務(wù)上可能比其他工具慢,比如同時(shí)從一個(gè)樣本中查找數(shù)百萬(wàn)個(gè)序列。他補(bǔ)充說(shuō),目前還不清楚如何最好地用新的序列數(shù)據(jù)更新索引。還有一個(gè)挑戰(zhàn)是為項(xiàng)目提供資金,以及隨之而來(lái)的所有計(jì)算成本。事實(shí)上,該工具最終是否被廣泛采用,將部分取決于“如何解決社會(huì)和行政方面的問(wèn)題,即如何使用如此大量的資源”。
Kahles和R?tsch對(duì)此表示贊同,他們希望這項(xiàng)工作能激勵(lì)其他團(tuán)體,以及NCBI或SRA等更大的組織的參與,并幫助索引剩余90%的序列數(shù)據(jù),供研究人員使用。


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。