中國科大發(fā)展出蛋白質(zhì)主鏈去噪擴散概率模型
| 來源: 【字號:大 中 小】
中國科學技術大學教授劉海燕與陳泉團隊開發(fā)了不依賴于預訓練結構預測網(wǎng)絡的蛋白質(zhì)主鏈去噪擴散概率模型SCUBA-D(SCUBA-diffusion)。SCUBA-D可自動從頭設計主鏈結構或指定功能位點生成主鏈結構。大量實驗結果驗證了SCUBA-D的設計成功率和設計精度。10月9日,相關研究成果以De novo protein design with a denoising diffusion network independent of pretrained structure prediction models為題,在線發(fā)表在《自然-方法》(Nature?Methods)上。
劉海燕和陳泉團隊致力于發(fā)展數(shù)據(jù)驅動的蛋白質(zhì)設計方法。前期,該團隊建立并實驗驗證了利用神經(jīng)網(wǎng)絡能量函數(shù)從頭設計主鏈結構的SCUBA模型。而此次研究報道的SCUBA-D模型是基于深度學習的主鏈設計算法的迭代升級。SCUBA-D能夠基于不同輸入執(zhí)行多類蛋白質(zhì)結構設計任務。在模型設計上,通過在擴散模型訓練中引入對抗損失,避免生成模型產(chǎn)生物理上不可行的結構,實現(xiàn)了高成功率的主鏈結構設計。由于沒有使用已有結構預測網(wǎng)絡作為預訓練降噪網(wǎng)絡,SCUBA-D可在設計中避免對已知天然結構的過度偏好,并能夠發(fā)現(xiàn)已有模型在可設計蛋白質(zhì)結構空間中的盲區(qū)。
該研究對SCUBA-D在多類蛋白質(zhì)從頭設計任務中的應用進行了實驗驗證。針對單體結構從頭設計任務,研究對70條設計序列進行實驗表征發(fā)現(xiàn),近80%的序列(53條)可溶表達,實驗解析的16個高分辨晶體結構與目標結構高度一致。在小分子結合蛋白設計任務中,研究對非經(jīng)典血紅素降解酶進行了保留結合位點的主鏈結構重設計,對設計的12條序列進行了實驗驗證。其中,5條序列具有與血紅素的結合能力,3條序列與血紅素的親和力與天然蛋白相當或高于天然蛋白。在結合蛋白設計任務中的30個人工設計的Ras結合蛋白中,14個設計蛋白與Ras有相互作用,其中3個設計蛋白與Ras的結合親和力與天然蛋白相當,且復合物晶體結構進一步驗證了設計的精確度。
研究工作得到科學技術部、國家自然科學基金委員會、中國科學院等的支持。
通過SCUBA-D模型進行蛋白質(zhì)主鏈設計的原理。(a)SCUBA-D可基于噪聲或者用戶定義的結構草圖設計新主鏈結構,也可以基于給定的含功能位點的局部結構設計新的完整主鏈;(b)包含對抗損失函數(shù)的SCUBA-D模型架構。