科研進(jìn)展

科學(xué)家研發(fā)出單細(xì)胞和空間轉(zhuǎn)錄組中環(huán)形RNA深度學(xué)習(xí)算法

日期: 2024-02-20

|  來(lái)源: 【字號(hào):

環(huán)形RNA是一類(lèi)廣泛表達(dá)的非編碼RNA,有較高的細(xì)胞類(lèi)型及組織表達(dá)特異性,在器官發(fā)育及腫瘤發(fā)生等過(guò)程中起著重要調(diào)控作用。環(huán)形RNA由3‘端的受體位點(diǎn)和5’端的供體位點(diǎn)共價(jià)連接形成,這一過(guò)程被稱(chēng)為反向剪接,然而由于缺少poly(A)尾,環(huán)形RNA無(wú)法被經(jīng)過(guò)polyA富集等轉(zhuǎn)錄組建庫(kù)方式有效捕獲。因此,環(huán)形RNA的表達(dá)信息在絕大部分單細(xì)胞以及空間轉(zhuǎn)錄組數(shù)據(jù)中缺失。為了獲得豐富的單細(xì)胞及空間水平的環(huán)形RNA表達(dá)信息,需要研發(fā)新型環(huán)形RNA表達(dá)預(yù)測(cè)算法。

中國(guó)科學(xué)院北京基因組研究所研究員高遠(yuǎn)團(tuán)隊(duì)與北京生命科學(xué)研究院研究員趙方慶團(tuán)隊(duì)聯(lián)合研發(fā)了深度學(xué)習(xí)模型CIRI-deep,以準(zhǔn)確預(yù)測(cè)不同樣本間的差異剪接環(huán)形RNA。該模型從環(huán)形RNA調(diào)控機(jī)制角度出發(fā),整合了3527個(gè)環(huán)形RNA特異的順式元件以及1499個(gè)樣本特異的反式因子作為輸入特征,且不依賴于傳統(tǒng)的反向剪接信號(hào)識(shí)別,可以在任意轉(zhuǎn)錄組樣本間預(yù)測(cè)差異剪接的環(huán)形RNA。評(píng)估結(jié)果表明,CIRI-deep可以實(shí)現(xiàn)多種轉(zhuǎn)錄組測(cè)序數(shù)據(jù)中差異剪接環(huán)形RNA的可靠預(yù)測(cè),并在單細(xì)胞及空間水平實(shí)現(xiàn)細(xì)胞類(lèi)型特異環(huán)形RNA的準(zhǔn)確解析,具有廣泛的應(yīng)用場(chǎng)景。

研究團(tuán)隊(duì)從397個(gè)深度測(cè)序的全轉(zhuǎn)錄組樣本中識(shí)別了超過(guò)2500萬(wàn)高度可信的環(huán)形RNA差異剪接事件。由于這些剪接事件覆蓋了25個(gè)人體組織,使用它們作為訓(xùn)練集,使CIRI-deep具有良好的泛化性能。CIRI-deep在測(cè)試數(shù)據(jù)集上的AUROC值達(dá)到0.906,并且可以準(zhǔn)確預(yù)測(cè)來(lái)自非訓(xùn)練集病理?xiàng)l件與正常樣本間的環(huán)形RNA差異剪接。此外,在低深度測(cè)序的轉(zhuǎn)錄本中,CIRI-deep對(duì)差異環(huán)形RNA的預(yù)測(cè)效果優(yōu)于基于reads數(shù)的統(tǒng)計(jì)檢驗(yàn)方法。

為了解釋CIRI-deep的預(yù)測(cè)原理,研究團(tuán)隊(duì)研發(fā)了深度學(xué)習(xí)可解釋性分析框架Adapted Integrated Gradient,以量化分析組織特異環(huán)形RNA的調(diào)控因素及其貢獻(xiàn)。結(jié)果表明,相較于基因序列結(jié)構(gòu)等順式元件,RNA結(jié)合蛋白等反式因子的表達(dá)水平對(duì)預(yù)測(cè)準(zhǔn)確性的貢獻(xiàn)更大,且具有更強(qiáng)的組織特異性。該分析框架驗(yàn)證了已知的環(huán)形RNA剪接的調(diào)控因素,如剪接位點(diǎn)、內(nèi)含子區(qū)域的Alu元件、FUS蛋白的表達(dá)等,也提示了之前未發(fā)現(xiàn)的潛在調(diào)控因子如NOVA2、KHDRBS3等對(duì)環(huán)形RNA剪接的影響。

為了從polyA富集測(cè)序的單細(xì)胞以及空間轉(zhuǎn)錄組數(shù)據(jù)中挖掘環(huán)形RNA表達(dá)水平差異,研究團(tuán)隊(duì)進(jìn)一步利用polyA數(shù)據(jù)訓(xùn)練了CIRI-deepA模型。結(jié)果表明,CIRI-deepA的預(yù)測(cè)表現(xiàn)大幅超過(guò)直接使用polyA數(shù)據(jù)推斷差異剪接環(huán)形RNA的效果。在腦膠質(zhì)瘤數(shù)據(jù)集上應(yīng)用CIRI-deepA,表明該模型可有效預(yù)測(cè)腫瘤細(xì)胞群體和健康細(xì)胞群體之間的差異剪接環(huán)形RNA。研究團(tuán)隊(duì)也將CIRI-deepA應(yīng)用到了10X單細(xì)胞數(shù)據(jù)集上,準(zhǔn)確預(yù)測(cè)了不同細(xì)胞群體的特異高表達(dá)環(huán)形RNA。另外,在空間轉(zhuǎn)錄組數(shù)據(jù)中,CIRI-deepA可用于預(yù)測(cè)空間區(qū)域特異高表達(dá)的環(huán)形RNA,并實(shí)現(xiàn)對(duì)環(huán)形RNA表達(dá)進(jìn)行空間區(qū)域水平的可視化。利用CIRI-deepA預(yù)測(cè)的高度特異表達(dá)環(huán)形RNA,可進(jìn)一步解析不同區(qū)域的細(xì)胞類(lèi)型構(gòu)成。

CIRI-deep模型可有效用于各轉(zhuǎn)錄組樣本間推斷差異剪接環(huán)形RNA,拓展了環(huán)形RNA的研究范圍,為環(huán)形RNA研究提供了新的高效分析方法。同時(shí),CIRI-deepA模型可以提供單細(xì)胞及空間水平環(huán)形RNA的有效解析,為挖掘細(xì)胞類(lèi)型特異的環(huán)形RNA標(biāo)志物提供了重要的方法學(xué)工具。

2月2日,相關(guān)成果以CIRI-Deep Enables Single-Cell and Spatial Transcriptomic Analysis of Circular RNAs with Deep Learning為題,發(fā)表在《先進(jìn)科學(xué)》(Advanced Science)上。研究工作得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金等的支持。

論文鏈接

基于深度學(xué)習(xí)的環(huán)形RNA差異剪接預(yù)測(cè)算法CIRI-deep

附件: