DISCO:深度整合人類單細(xì)胞組學(xué)數(shù)據(jù)的數(shù)據(jù)庫

欄目:最新研究動態(tài) 發(fā)布時間:2022-03-14
近日,新加坡研究團(tuán)隊(duì)構(gòu)建了一個新的單細(xì)胞測序數(shù)據(jù)庫——DISCO,該數(shù)據(jù)庫相關(guān)文章刊登在Nucleic Acids Research期刊......


單細(xì)胞 RNA 測序已成為剖析細(xì)胞異質(zhì)性以發(fā)現(xiàn)稀有細(xì)胞類型和研究細(xì)胞水平基因調(diào)控的有力工具。在過去的十年中,單細(xì)胞轉(zhuǎn)錄組研究呈指數(shù)級增長,涵蓋了廣泛的組織類型和疾病。技術(shù)的進(jìn)步不僅降低了測序成本,而且增加了每個實(shí)驗(yàn)測序的細(xì)胞數(shù)量,據(jù)報道覆蓋了超過一百萬個細(xì)胞。單細(xì)胞數(shù)據(jù)的日益普及為數(shù)據(jù)集成提供了機(jī)會,以創(chuàng)建全面的細(xì)胞圖并增強(qiáng)下游分析的能力。

單細(xì)胞測序的飛速發(fā)展也給單細(xì)胞數(shù)據(jù)的管理和整合帶來了挑戰(zhàn)。目前,公共數(shù)據(jù)庫中有超過400個單細(xì)胞 RNA-seq 數(shù)據(jù)集。當(dāng)前的單細(xì)胞數(shù)據(jù)庫具有三個主要缺點(diǎn)。首先,這些數(shù)據(jù)庫中的大多數(shù)僅提供其各自研究中的處理數(shù)據(jù);未進(jìn)行數(shù)據(jù)集成或未提供批量校正值。具有針對特定組織或疾病的集成圖集作為共識參考圖和增強(qiáng)下游分析非常有用。其次,相關(guān)數(shù)據(jù)不協(xié)調(diào),具有非標(biāo)準(zhǔn)格式和命名約定。特別是,細(xì)胞類型標(biāo)簽不遵循任何標(biāo)準(zhǔn)化的細(xì)胞類型本體。第三,它們提供有限的分析功能和可視化能力。例如,它們都不允許用戶將自己的數(shù)據(jù)映射到數(shù)據(jù)上。

近日,新加坡研究團(tuán)隊(duì)構(gòu)建了一個新的單細(xì)胞測序數(shù)據(jù)庫——DISCO,該數(shù)據(jù)庫相關(guān)文章刊登在Nucleic Acids Research期刊(IF=16.971),題名為DISCO: a database of Deeply Integrated human Single-Cell Omics data。DISCO網(wǎng)址為https://www.immunesinglecell.org/

DISCO是一個深度集成的單細(xì)胞組學(xué)數(shù)據(jù)數(shù)據(jù)庫。DISCO 351個項(xiàng)目中整合了來自4593個樣本的超過1800萬個細(xì)胞,涵蓋107個組織/細(xì)胞系/類器官、158種疾病和20個平臺。DISCO上托管的所有數(shù)據(jù)都是使用標(biāo)準(zhǔn)化管道從原始 fastq文件處理的。利用大量的公共細(xì)胞類型注釋,開發(fā)了CELLiD并將其應(yīng)用于以自動和標(biāo)準(zhǔn)化的方式注釋細(xì)胞類型。為了整合單細(xì)胞數(shù)據(jù)并創(chuàng)建共識參考圖,還開發(fā)了FastIntegration,它可以整合超過400萬個細(xì)胞。目前,DISCO23種組織、3種疾病(COVID-19、乳腺癌和結(jié)直腸癌)和B/漿細(xì)胞提供了1個全圖譜27個子圖譜。DISCO配備了三個在線工具,用于在線數(shù)據(jù)集成的FastIntegration、用于在線細(xì)胞類型識別的CELLiD和用于在線細(xì)胞投影的CellMapper。這些工具使用戶能夠執(zhí)行自定義數(shù)據(jù)集成,并將他們自己的數(shù)據(jù)上傳到細(xì)胞類型注釋和映射到可用的圖集上。集成的地圖集和用于構(gòu)建地圖集的所有樣本數(shù)據(jù)也可供下載??傊?, DISCO 是探索不同健康和患病人體組織中的細(xì)胞類型和基因表達(dá)的寶貴數(shù)據(jù)資源,有助于加速發(fā)現(xiàn)新的細(xì)胞類型及其相關(guān)功能。