科學(xué)家研發(fā)出單細(xì)胞和空間轉(zhuǎn)錄組中環(huán)形RNA深度學(xué)習(xí)算法
| 來源: 【字號:大 中 小】
環(huán)形RNA是一類廣泛表達(dá)的非編碼RNA,有較高的細(xì)胞類型及組織表達(dá)特異性,在器官發(fā)育及腫瘤發(fā)生等過程中起著重要調(diào)控作用。環(huán)形RNA由3‘端的受體位點(diǎn)和5’端的供體位點(diǎn)共價(jià)連接形成,這一過程被稱為反向剪接,然而由于缺少poly(A)尾,環(huán)形RNA無法被經(jīng)過polyA富集等轉(zhuǎn)錄組建庫方式有效捕獲。因此,環(huán)形RNA的表達(dá)信息在絕大部分單細(xì)胞以及空間轉(zhuǎn)錄組數(shù)據(jù)中缺失。為了獲得豐富的單細(xì)胞及空間水平的環(huán)形RNA表達(dá)信息,需要研發(fā)新型環(huán)形RNA表達(dá)預(yù)測算法。
中國科學(xué)院北京基因組研究所研究員高遠(yuǎn)團(tuán)隊(duì)與北京生命科學(xué)研究院研究員趙方慶團(tuán)隊(duì)聯(lián)合研發(fā)了深度學(xué)習(xí)模型CIRI-deep,以準(zhǔn)確預(yù)測不同樣本間的差異剪接環(huán)形RNA。該模型從環(huán)形RNA調(diào)控機(jī)制角度出發(fā),整合了3527個(gè)環(huán)形RNA特異的順式元件以及1499個(gè)樣本特異的反式因子作為輸入特征,且不依賴于傳統(tǒng)的反向剪接信號識別,可以在任意轉(zhuǎn)錄組樣本間預(yù)測差異剪接的環(huán)形RNA。評估結(jié)果表明,CIRI-deep可以實(shí)現(xiàn)多種轉(zhuǎn)錄組測序數(shù)據(jù)中差異剪接環(huán)形RNA的可靠預(yù)測,并在單細(xì)胞及空間水平實(shí)現(xiàn)細(xì)胞類型特異環(huán)形RNA的準(zhǔn)確解析,具有廣泛的應(yīng)用場景。
研究團(tuán)隊(duì)從397個(gè)深度測序的全轉(zhuǎn)錄組樣本中識別了超過2500萬高度可信的環(huán)形RNA差異剪接事件。由于這些剪接事件覆蓋了25個(gè)人體組織,使用它們作為訓(xùn)練集,使CIRI-deep具有良好的泛化性能。CIRI-deep在測試數(shù)據(jù)集上的AUROC值達(dá)到0.906,并且可以準(zhǔn)確預(yù)測來自非訓(xùn)練集病理?xiàng)l件與正常樣本間的環(huán)形RNA差異剪接。此外,在低深度測序的轉(zhuǎn)錄本中,CIRI-deep對差異環(huán)形RNA的預(yù)測效果優(yōu)于基于reads數(shù)的統(tǒng)計(jì)檢驗(yàn)方法。
為了解釋CIRI-deep的預(yù)測原理,研究團(tuán)隊(duì)研發(fā)了深度學(xué)習(xí)可解釋性分析框架Adapted Integrated Gradient,以量化分析組織特異環(huán)形RNA的調(diào)控因素及其貢獻(xiàn)。結(jié)果表明,相較于基因序列結(jié)構(gòu)等順式元件,RNA結(jié)合蛋白等反式因子的表達(dá)水平對預(yù)測準(zhǔn)確性的貢獻(xiàn)更大,且具有更強(qiáng)的組織特異性。該分析框架驗(yàn)證了已知的環(huán)形RNA剪接的調(diào)控因素,如剪接位點(diǎn)、內(nèi)含子區(qū)域的Alu元件、FUS蛋白的表達(dá)等,也提示了之前未發(fā)現(xiàn)的潛在調(diào)控因子如NOVA2、KHDRBS3等對環(huán)形RNA剪接的影響。
為了從polyA富集測序的單細(xì)胞以及空間轉(zhuǎn)錄組數(shù)據(jù)中挖掘環(huán)形RNA表達(dá)水平差異,研究團(tuán)隊(duì)進(jìn)一步利用polyA數(shù)據(jù)訓(xùn)練了CIRI-deepA模型。結(jié)果表明,CIRI-deepA的預(yù)測表現(xiàn)大幅超過直接使用polyA數(shù)據(jù)推斷差異剪接環(huán)形RNA的效果。在腦膠質(zhì)瘤數(shù)據(jù)集上應(yīng)用CIRI-deepA,表明該模型可有效預(yù)測腫瘤細(xì)胞群體和健康細(xì)胞群體之間的差異剪接環(huán)形RNA。研究團(tuán)隊(duì)也將CIRI-deepA應(yīng)用到了10X單細(xì)胞數(shù)據(jù)集上,準(zhǔn)確預(yù)測了不同細(xì)胞群體的特異高表達(dá)環(huán)形RNA。另外,在空間轉(zhuǎn)錄組數(shù)據(jù)中,CIRI-deepA可用于預(yù)測空間區(qū)域特異高表達(dá)的環(huán)形RNA,并實(shí)現(xiàn)對環(huán)形RNA表達(dá)進(jìn)行空間區(qū)域水平的可視化。利用CIRI-deepA預(yù)測的高度特異表達(dá)環(huán)形RNA,可進(jìn)一步解析不同區(qū)域的細(xì)胞類型構(gòu)成。
CIRI-deep模型可有效用于各轉(zhuǎn)錄組樣本間推斷差異剪接環(huán)形RNA,拓展了環(huán)形RNA的研究范圍,為環(huán)形RNA研究提供了新的高效分析方法。同時(shí),CIRI-deepA模型可以提供單細(xì)胞及空間水平環(huán)形RNA的有效解析,為挖掘細(xì)胞類型特異的環(huán)形RNA標(biāo)志物提供了重要的方法學(xué)工具。
2月2日,相關(guān)成果以CIRI-Deep Enables Single-Cell and Spatial Transcriptomic Analysis of Circular RNAs with Deep Learning為題,發(fā)表在《先進(jìn)科學(xué)》(Advanced Science)上。研究工作得到國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金等的支持。
基于深度學(xué)習(xí)的環(huán)形RNA差異剪接預(yù)測算法CIRI-deep
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000016