IF=11.1!全球首個跨物種單細胞注釋數(shù)據(jù)庫,博奧晶典自主研發(fā)攻堅細胞注釋難題
2023年9月20日,生物芯片北京國家工程研究中心、北京博奧晶典生物技術(shù)有限公司(以下簡稱:博奧晶典)聯(lián)合廣東省東莞市婦幼保健院黃小玲主任醫(yī)師團隊深度合作,共同發(fā)表跨物種單細胞注釋數(shù)據(jù)庫 singleCellBase,有效解決單細胞分析核心難題——細胞注釋。
海量單細胞數(shù)據(jù)亟待解決注釋難題
單細胞轉(zhuǎn)錄組測序(scRNA-seq)技術(shù)為研究人員提供了獨特的機會,以單個細胞的分辨率來揭示人體組織中復(fù)雜的細胞成分和各種細胞的異質(zhì)性。在進行 scRNA-seq 數(shù)據(jù)分析時,注釋每個細胞的生物學(xué)類型是研究人員面臨的一個極具挑戰(zhàn)性的核心問題。
細胞注釋的方法通常分為自動注釋和手動注釋兩大類。雖然自動注釋速度更快,但在精細的細胞亞型注釋方面通常效果不佳,并且不能始終得到高置信度的注釋結(jié)果。手動注釋通常被認為是金標(biāo)準(zhǔn),但通常面臨以下挑戰(zhàn):1. 手動注釋耗時且需要大量的工作量,同時還要求先驗知識,即已知的細胞類型和標(biāo)記基因的關(guān)聯(lián)關(guān)系。2. 已知細胞類型與標(biāo)記基因之間的關(guān)聯(lián)關(guān)系數(shù)量有限、分散在各類研究論文中、且可靠性有待提高。
3. 對于除人類和小鼠之外的其他物種,幾乎沒有可用的數(shù)據(jù)資源來支持手動細胞注釋,使得單細胞數(shù)據(jù)分析中不可避免的細胞注釋過程更加困難。
單細胞注釋數(shù)據(jù)庫singleCellBase有效解決注釋困境
面對以上難題,博奧晶典聯(lián)合廣東省東莞市婦幼保健院黃小玲主任醫(yī)師團隊攻堅克難,成功自主研發(fā)出單細胞注釋數(shù)據(jù)庫——singleCellBase,有效解決單細胞數(shù)據(jù)注釋困境,結(jié)果于權(quán)威雜志?Biomarker Research?雜志(影響因子 11.1)在線發(fā)表。


數(shù)據(jù)庫四大特性助力高質(zhì)量細胞注釋結(jié)果
博奧晶典自主研發(fā)的 singleCellBase 是全球首個支持多物種單細胞注釋的數(shù)據(jù)庫,具有(1)打破物種限制;(2)提供先驗知識;(3)整合分散的文獻資源;(4)拓寬疾病研究領(lǐng)域;(5)實現(xiàn)數(shù)據(jù)資源共享;(6)促進科學(xué)交流的特殊意義;且具有全面性、可靠性、交互性、時效性的 4 大優(yōu)越性能。該數(shù)據(jù)庫極大方便了從事基礎(chǔ)研究,特別是應(yīng)用單細胞技術(shù)的研究領(lǐng)域的研究人員,為更好地在單細胞分辨率下解析疾病治病機理以及探索有效治療策略提供基本的信息資源。??
全面性:涵蓋 31 個物種,除人和小鼠外,還包含猴、雞、豬、魚、擬南芥等動物和植物等。共計涉及 8740 個基因和 1221 種細胞類型,涵蓋 165 種組織類型和 464 種疾病類型。可靠性:包含超過 2000 篇高質(zhì)量單細胞研究論文的約 10,000 條細胞類型和標(biāo)記基因之間的對應(yīng)關(guān)系記錄,所有記錄均通過人工提取和雙重核查后收錄。交互性:提供 7 個功能模塊,滿足研究人員日常瀏覽、查詢和可視化單細胞數(shù)據(jù)集等諸多需求。時效性:持續(xù)更新數(shù)據(jù)庫信息,不斷升級優(yōu)化功能模塊。


數(shù)據(jù)庫項目實測應(yīng)用結(jié)果比較
以下具體展示用 singleCellBase 和 目前廣泛應(yīng)用的 CellMarker 兩種注釋數(shù)據(jù)庫對 5 個數(shù)據(jù)集進行注釋的結(jié)果比較。
1. 小鼠血管組織

圖4. 小鼠主動脈單細胞數(shù)據(jù)利用不同數(shù)據(jù)庫注釋結(jié)果。中間圖 CellMarker 注釋結(jié)果中紅色代表 other,即并未注釋出確切的細胞類型

圖5. 細胞最大概率值的密度分布圖
結(jié)論
小鼠主動脈組織,共 74073 個細胞,CellMarker 僅能注釋出小部分細胞(<5%),singleCellBase 可注釋出基本上所有細胞,而且結(jié)果與經(jīng)驗 marker 注釋高度一致,大大優(yōu)于 CellMarker 的結(jié)果。
2. 小鼠肺組織



結(jié)論
小鼠肺組織,CellMarker 與 singleCellBase 注釋結(jié)果有不同,利用經(jīng)典 marker 驗證得知 singleCellBase 注釋正確。
3. 人肝臟組織



T 細胞 marker 驗證

NK 細胞 marker 驗證

單核細胞 marker 驗證圖9. 經(jīng)典 marker 驗證注釋準(zhǔn)確性。圖中用紫色圈出來的部分為 cluster22
結(jié)論
人肝臟注釋中 CellMarker 和 singleCellBase 結(jié)果出現(xiàn)不一致。利用經(jīng)典 marker 驗證得出 singleCellBase 結(jié)果更可信,且 singleCellBase 注釋出的細胞亞群更多更細致。
4.?人肺癌組織


結(jié)論
人肺癌組織,兩種數(shù)據(jù)庫的注釋結(jié)果相似。需要進一步利用CNV分析輔助腫瘤細胞的注釋。
5.?人心臟組織


結(jié)論
對人心臟單細胞數(shù)據(jù)的注釋,singleCellBase 大大優(yōu)于 CellMarker。
通過多個數(shù)據(jù)庫的注釋結(jié)果可以發(fā)現(xiàn),singleCellBase 和 CellMarker 兩種數(shù)據(jù)庫在不同組織中注釋的效果不同,對肺癌組織數(shù)據(jù)兩種數(shù)據(jù)庫表現(xiàn)得相當(dāng),而 singleCellBase 在小鼠血管、小鼠肺、人肝臟和人心臟組織的單細胞數(shù)據(jù)中注釋得更為準(zhǔn)確和全面。當(dāng)然,每個數(shù)據(jù)庫都不是完美的,singleCellBase 也需要在 marker 和細胞類型上向更加統(tǒng)一和準(zhǔn)確的方向前進,規(guī)范化細胞類型名字,并且通過多個數(shù)據(jù)庫整合來進行實時更新和優(yōu)化,持續(xù)為廣大科研工作者在單細胞注釋方面帶來更全面更準(zhǔn)確的高質(zhì)量細胞注釋結(jié)果。
論文鏈接:https://biomarkerres.biomedcentral.com/articles/10.1186/s40364-023-00523-3
數(shù)據(jù)庫鏈接:http://cloud.capitalbiotech.com/SingleCellBase/