近年來深度生成模型的進(jìn)步,使得科學(xué)家可以相對精準(zhǔn)地設(shè)計靶向難成藥位點的治療性肽,但是卻低估了蛋白質(zhì)相互作用(PPI)中分子表面的關(guān)鍵影響——就像找到了鎖芯卻忽略了開門的正確角度,這極大阻礙了治療性肽的設(shè)計與發(fā)現(xiàn)。

為了彌補這一差距,分子之心許錦波團(tuán)隊與斯坦福大學(xué)團(tuán)隊合作提出了一種全設(shè)計肽生成范例,稱為SurfFlow,這是一種基于表面的新型生成算法,可以對肽的序列、結(jié)構(gòu)和表面進(jìn)行全面的共同設(shè)計。該研究的相關(guān)技術(shù)論文已被數(shù)據(jù)挖掘領(lǐng)域最具影響力的國際會議KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,國際知識發(fā)現(xiàn)與數(shù)據(jù)挖掘大會)2025收錄。

SurfFlow采用多模態(tài)條件流匹配(CFM)架構(gòu)來學(xué)習(xí)表面幾何形狀和生化特性的分布,從而提高肽結(jié)合的準(zhǔn)確性。

在全面的PepMerge基準(zhǔn)測試中,SurfFlow在所有指標(biāo)上均始終優(yōu)于全原子基線。這些結(jié)果展現(xiàn)了在從頭肽發(fā)現(xiàn)中考慮分子表面的優(yōu)勢,并展示了整合多種蛋白質(zhì)模態(tài)以更有效地發(fā)現(xiàn)治療性肽的潛力。

KDD 2025 | 分子之心與斯坦福團(tuán)隊突破肽設(shè)計瓶頸,SurfFlow實現(xiàn)分子表面精準(zhǔn)建模-肽度TIMEDOO

研究背景

肽是由大約2至50個氨基酸組成的短鏈蛋白質(zhì),在各種生物過程中發(fā)揮著關(guān)鍵作用,包括細(xì)胞信號傳導(dǎo)、酶催化和免疫反應(yīng)。

肽是藥理學(xué)中必不可少的介質(zhì),因為它們能夠以高親和力和特異性結(jié)合細(xì)胞表面受體,例如具有低毒性、低免疫原性且易于遞送的細(xì)胞內(nèi)效應(yīng)。

傳統(tǒng)的肽發(fā)現(xiàn)方法依賴于物理能量函數(shù)的頻繁計算,但由于肽設(shè)計空間龐大,這種方法效率較低,因此推動了計算方法的快速發(fā)展。

近年來,在研究蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)時,分子表面越來越受到關(guān)注,因為PPI很大程度上取決于相互作用蛋白質(zhì)表面的互補性。表面的靜電勢和疏水性是決定PPI強(qiáng)度和特異性的關(guān)鍵因素,而其幾何形狀(例如突起、凹槽和裂縫)則能夠?qū)崿F(xiàn)特異性結(jié)合所必需的「鎖鑰」或「誘導(dǎo)契合」機(jī)制。

KDD 2025 | 分子之心與斯坦福團(tuán)隊突破肽設(shè)計瓶頸,SurfFlow實現(xiàn)分子表面精準(zhǔn)建模-肽度TIMEDOO

圖示:有無表面約束的全原子肽設(shè)計的比較。(來源:論文)

這些表面充當(dāng)著決定蛋白質(zhì)如何相互識別和結(jié)合的基本界面。由于這些原因,在肽生成過程中同時考慮所有分子模式(序列、結(jié)構(gòu)和表面)至關(guān)重要,從而增強(qiáng)所謂的全設(shè)計各個方面的一致性。

SurfFlow

為了實現(xiàn)這一目標(biāo),斯坦福大學(xué)及分子之心團(tuán)隊提出了一種名為SurfFlow 的新型全設(shè)計生成算法。

它將多模態(tài)流匹配(FM)應(yīng)用于內(nèi)部結(jié)構(gòu)和分子表面,這些結(jié)構(gòu)和表面由表面點位置和單位范數(shù)向量表示,并作為SE(3) 中的剛性框架。

由于僅靠互補的表面幾何形狀并不能保證成功的結(jié)合——結(jié)合界面的精確性和電荷、極性和疏水性的放置也是必要的,因此SurfFlow將這些生物化學(xué)性質(zhì)的約束納入其中。

KDD 2025 | 分子之心與斯坦福團(tuán)隊突破肽設(shè)計瓶頸,SurfFlow實現(xiàn)分子表面精準(zhǔn)建模-肽度TIMEDOO

圖示:SurfFlow工作流程用于肽全方位設(shè)計,它考慮了生成過程中序列、結(jié)構(gòu)和分子表面之間的多模態(tài)一致性。(來源:論文)

具體來說,它利用離散FM(DFM)來處理一些分類表面特征的離散數(shù)據(jù)空間,并使用連續(xù)時間馬爾可夫鏈(CTMC)。

此外,考慮到以可擴(kuò)展的方式捕捉不規(guī)則表面幾何形狀、多尺度特征和蛋白質(zhì)間相互作用的挑戰(zhàn),研究人員提出了一種等變表面幾何網(wǎng)絡(luò)(ESGN),它可以動態(tài)地模擬異構(gòu)表面圖,同時獨特地結(jié)合表面內(nèi)和表面間的相互作用。

鑒于環(huán)狀性和二硫鍵等關(guān)鍵肽屬性會影響穩(wěn)定性和結(jié)合親和力,他們將這些因素作為附加條件,從而增強(qiáng)SurfFlow 的容量和泛化能力。

性能評估

該團(tuán)隊全面評估了SurfFlow在非條件和條件序列結(jié)構(gòu)協(xié)同設(shè)計任務(wù)以及側(cè)鏈填充問題上的表現(xiàn)。為了進(jìn)行基準(zhǔn)測試,他們使用了源自PepBDB 和Q-BioLip 的PepMerge數(shù)據(jù)集。評估結(jié)果如以下圖表所示,它在所有指標(biāo)上均始終優(yōu)于全原子基線。

表:評估序列結(jié)構(gòu)協(xié)同設(shè)計任務(wù)中不同方法的優(yōu)劣,并針對SurfFlow關(guān)鍵組件進(jìn)行消融研究。最佳結(jié)果和次優(yōu)結(jié)果以粗體和下劃線標(biāo)記。(來源:論文)

KDD 2025 | 分子之心與斯坦福團(tuán)隊突破肽設(shè)計瓶頸,SurfFlow實現(xiàn)分子表面精準(zhǔn)建模-肽度TIMEDOO

KDD 2025 | 分子之心與斯坦福團(tuán)隊突破肽設(shè)計瓶頸,SurfFlow實現(xiàn)分子表面精準(zhǔn)建模-肽度TIMEDOO

圖示:設(shè)計和天然肽的結(jié)合能分布,越低越好。(來源:論文)

KDD 2025 | 分子之心與斯坦福團(tuán)隊突破肽設(shè)計瓶頸,SurfFlow實現(xiàn)分子表面精準(zhǔn)建模-肽度TIMEDOO

圖示:通過DL算法和參考文獻(xiàn)設(shè)計的肽(左);具有循環(huán)條件的肽設(shè)計。(右)。(來源:論文)

雖然SurfFlow機(jī)制在原有的全原子設(shè)計機(jī)制上有所改進(jìn),但仍有進(jìn)一步探索的空間。例如,如果將受體表面信息納入聯(lián)合分布模型,可以期待進(jìn)一步的優(yōu)化。此外,RFDiffusion的成功表明,在PDB 中對常規(guī)蛋白質(zhì)進(jìn)行預(yù)訓(xùn)練是有益的。

盡管如此,SurfFlow模型是一種能夠同時生成所有蛋白質(zhì)模態(tài)(序列、結(jié)構(gòu)和表面)的新型模型。研究人員應(yīng)用SurfFlow解決了一個特定的肽設(shè)計難題,并將循環(huán)性和二硫鍵等關(guān)鍵特征整合到生成過程中。

據(jù)說團(tuán)隊很快會上線?SurfFlow,感興趣的朋友可以期待一下。

編輯:李麗