研究進(jìn)展

科學(xué)家設(shè)計(jì)出基于圖表示學(xué)習(xí)和蛋白質(zhì)語言模型的深度生成算法

日期: 2024-12-12

|  來源: 【字號(hào):

近日,中國(guó)科學(xué)技術(shù)大學(xué)認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室教授劉淇指導(dǎo)的博士研究生張載熙,聯(lián)合美國(guó)哈佛大學(xué)醫(yī)學(xué)院教授Marinka Zitnik課題組,設(shè)計(jì)了基于圖表示學(xué)習(xí)和蛋白質(zhì)語言模型的深度生成算法PocketGen,生成了與小分子結(jié)合的蛋白質(zhì)口袋序列和空間結(jié)構(gòu)。實(shí)驗(yàn)驗(yàn)證顯示,PocketGen在生成成功率和效率方面均超過傳統(tǒng)方法。相關(guān)研究成果以Efficient Generation of Protein Pockets with PocketGen為題,發(fā)表在《自然-機(jī)器智能》(Nature Machine Intelligence)上。

研發(fā)適用于科學(xué)發(fā)現(xiàn)任務(wù)的人工智能算法如功能蛋白質(zhì)設(shè)計(jì)是重要的研究方向。在藥物發(fā)現(xiàn)和生物醫(yī)療領(lǐng)域,設(shè)計(jì)與小分子結(jié)合的功能蛋白質(zhì)具有積極意義。而基于能量?jī)?yōu)化和模板匹配的傳統(tǒng)方法計(jì)算速度慢、成功率低?;谏疃葘W(xué)習(xí)的模型存在分子-蛋白質(zhì)復(fù)雜相互作用建模難、序列-結(jié)構(gòu)依賴關(guān)系學(xué)習(xí)難等問題。因此,亟待發(fā)展高效、高成功率且能夠準(zhǔn)確反映物理化學(xué)規(guī)律的蛋白質(zhì)口袋生成算法。

該團(tuán)隊(duì)在前期蛋白質(zhì)口袋生成工作FAIR和PocketFlow的基礎(chǔ)上,研發(fā)出PocketGen。PocketGen可以基于蛋白質(zhì)框架和結(jié)合小分子生成蛋白質(zhì)口袋序列和結(jié)構(gòu)。PocketGen主要由雙層圖Transformer編碼器和蛋白質(zhì)預(yù)訓(xùn)練語言模型組成。受蛋白質(zhì)固有的層級(jí)結(jié)構(gòu)啟發(fā),雙層圖Transformer編碼器包括氨基酸層級(jí)編碼器和原子層級(jí)編碼器,學(xué)習(xí)不同細(xì)粒度的相互作用信息,更新氨基酸/原子表示和坐標(biāo)。在蛋白質(zhì)預(yù)訓(xùn)練語言模型中,PocketGen高效微調(diào)ESM2模型,輔助氨基酸序列預(yù)測(cè)。具體方法為PocketGen固定大部分模型層不變,僅微調(diào)部分適應(yīng)層參數(shù),計(jì)算序列-結(jié)構(gòu)信息交叉注意力,增強(qiáng)序列-結(jié)構(gòu)一致性。實(shí)驗(yàn)顯示,PocketGen模型親和力和結(jié)構(gòu)合理性等指標(biāo)超過傳統(tǒng)方法,在計(jì)算效率方面亦有大幅提高。

進(jìn)一步,該研究在芬太尼和艾必克等小分子結(jié)合蛋白質(zhì)口袋設(shè)計(jì)任務(wù)中進(jìn)行驗(yàn)證,并與生成模型RFDiffusion、RFDiffusionAA等比較,驗(yàn)證了PocketGen的有效性。同時(shí),研究將PocketGen產(chǎn)生的注意力矩陣與基于第一性原理和力場(chǎng)模擬分析軟件得到的結(jié)果進(jìn)行對(duì)比展示,發(fā)現(xiàn)基于深度學(xué)習(xí)的PocketGen具有較好可解釋性。

上述成果推進(jìn)了深度生成模型用于功能蛋白質(zhì)設(shè)計(jì),為進(jìn)一步剖析蛋白質(zhì)設(shè)計(jì)規(guī)律并開展生物實(shí)驗(yàn)驗(yàn)證奠定了基礎(chǔ),展現(xiàn)了人工智能方法在解決藥物研發(fā)和生物工程領(lǐng)域重要科學(xué)問題方面的優(yōu)勢(shì)。

研究工作得到國(guó)家自然科學(xué)基金等的支持。

論文鏈接

(a)利用PocketGen進(jìn)行蛋白質(zhì)序列-結(jié)構(gòu)共同設(shè)計(jì);(b)雙層圖Transformer編碼器;(c)蛋白質(zhì)預(yù)訓(xùn)練語言模型用于序列預(yù)測(cè)及高效微調(diào)技術(shù)

左側(cè)為薛定諤軟件分析的蛋白質(zhì)-小分子相互作用關(guān)系圖;右側(cè)是PocketGen兩個(gè)注意力矩陣頭的熱圖,與左側(cè)相互關(guān)系成功對(duì)應(yīng)。


附件: