8月14日,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數(shù)據(jù)中心(CNCB-NGDC)在Genomics,Proteomics & Bioinformatics上,在線發(fā)表研究論文The Genome Sequence Archive Family: Toward Explosive Data Growth and Diverse Data Types。GSA數(shù)據(jù)庫體系接受全世界科研工作者的數(shù)據(jù)提交,匯交和管理各類型的數(shù)據(jù),并對所有公開可用數(shù)據(jù)提供免費開放訪問,支撐生命科學研究。

組學原始數(shù)據(jù)歸檔庫(GSA)是生命組學原始測序數(shù)據(jù)管理的公益性數(shù)據(jù)庫,旨在推動全球生命組學數(shù)據(jù)的共享與應用。近年來,隨著組學數(shù)據(jù)的爆炸性增長和數(shù)據(jù)類型的多樣化,以及人類遺傳資源數(shù)據(jù)管理的特殊需求,CNCB-NGDC對GSA數(shù)據(jù)庫進行了更新和擴展,形成了GSA數(shù)據(jù)庫體系,包括GSA、GSA-Human和OMIX。

GSA數(shù)據(jù)庫與2017發(fā)布的版本相比,在數(shù)據(jù)模型、系統(tǒng)功能和數(shù)據(jù)提交方式等方面進行了更新和功能提升;GSA-Human是存儲人類遺傳資源數(shù)據(jù)的數(shù)據(jù)庫,可實現(xiàn)人類遺傳資源數(shù)據(jù)的受控訪問,保障人類遺傳資源數(shù)據(jù)的安全性;OMIX數(shù)據(jù)庫存儲非原始測序數(shù)據(jù),如環(huán)境組、表型組、代謝組等,作為上述兩種數(shù)據(jù)資源庫的重要補充,有效地解決了用戶提交除原始測序數(shù)據(jù)外的其他類型數(shù)據(jù)的需求。

截至2021年8月14日,GSA和GSA-Human已收集的數(shù)據(jù)量達9.5 PB,OMIX上線不久數(shù)據(jù)量已達1.6 TB。GSA數(shù)據(jù)庫體系已為全球111個國家/地區(qū)的用戶提供數(shù)據(jù)服務,平均每天的數(shù)據(jù)下載量達4 TB,已成為Elsevier、Wiley、Taylor & Francis 、Cell及Springer Nature出版集團指定的核酸數(shù)據(jù)歸檔庫,并獲得領域內國內外主流期刊的認可。

研究工作得到國家重點研發(fā)計劃、中科院戰(zhàn)略性先導科技專項、中科院信息化專項等的支持,GSA歸檔數(shù)據(jù)使用的計算機硬件設施得到國家財政部修繕購置專項的支持。

論文鏈接

北京基因組所關于原始數(shù)據(jù)管理體系(GSA Family)研發(fā)取得進展-肽度TIMEDOO

GSA Family數(shù)據(jù)模型

來源: 北京基因組研究所