
"結構就是功能"——蛋白質的工作原理和作用取決于其3D形狀。
2020年末,基于深度神經網絡的AlphaFold2,一舉破解了困擾生物學界長達五十年之久的“蛋白質折疊”難題,改變了科學研究的游戲規則,可以從蛋白質序列直接預測蛋白質結構,實現了計算機蛋白質建模極高的精確度。
自AF2問世以來,全世界數百萬研究者已經在瘧疾疫苗、癌癥治療和酶設計等諸多領域取得了突破。

2024年5月初,AlphaFold3再登Nature,基于Diffusion(擴散技術)架構,將技術延伸到蛋白質折疊之外,能以原子級精度準確預測蛋白質、DNA、RNA、配體等生命分子的結構及相互作用。
為了避免Diffusion技術在一些無結構區域產生“幻覺”,DeepMind還創新了一種交叉蒸餾(cross-distillation)方法,把AF2預測的結構數據預添加到AF3的預訓練集中,減少AF3的預測失誤。
AF2代碼已開源,AF3目測不會開源,也不能商用。
我們今天的主角——只能是AlphaFold2。
想知道怎么使用AlphaFold2最最快樂?
怎么快速完成蛋白質結構預測任務?
我們能在背后幫你默默干點什么?
來吧——
01
先復習一下
AlphaFold2計算的正確打開方式
我們通常說的AlphaFold2是指一個利用多個外部開源程序和數據庫,通過蛋白質序列預測其3D結構的系統。
整個蛋白質結構預測計算過程大致可以分為兩個階段:
一、數據預處理
包括多序列比對(MSA)和模板搜索(Template Search)兩個步驟,主要是利用已知的蛋白質序列和結構模板,獲得不同蛋白質之間的共有進化信息來提升目標蛋白質結構預測的準確性。
需要比對和搜索的數據總和達到了TB量級,涉及數據庫密集I/O讀寫,因此對I/O有較高的要求。
這一階段主要使用HMMER與HH-suite軟件,以及Uniprot、MGnify、PDB等多個蛋白質數據庫。計算耗時與蛋白序列長度正相關,主要使用CPU計算資源。
AF2訓練數據集覆蓋多個數據庫,比如UniRef90/MGnify/PDB/BFD等,目前完整版大小約為2.62TB,是世界范圍內較為權威的蛋白質三維結構數據庫。2022年7月28日,Google DeepMind將數據庫從近100萬個結構擴展到超過2億個結構,涵蓋了植物、細菌、動物和其他微生物等多個類別。

二 、模型推理與優化
基于端到端的Transformer神經網絡模型,AF2輸入Templates、MSA序列和pairing信息,其中pairing和MSA信息相互迭代更新,檢測蛋白質中氨基酸之間相互作用的模式,輸出基于它們的3D結構。
再用OpenMM軟件對預測的3D結構進行物理放松,解決結構違規與沖突。
使用Recycling(將輸出重新加入到輸入再重復refinement)進行多輪迭代訓練和測試,多輪迭代優化有一定的必要性,較為復雜的蛋白可能在多輪之后才能折疊到正確的結構。
這一階段計算耗時與迭代次數正相關,主要使用GPU計算資源。
02
Workflow全流程自動化
隨心組合,當一個甩手掌柜
作為一個系統,AlphaFold2借助了多個外部開源軟件和數據庫,整個計算過程也比較復雜。
如果用戶想要自行使用,不但要下載龐大的數據庫,還需要自行搭建使用環境,對IT能力的要求不可謂不高。
用戶看到的基本都是左邊這種畫面,我們能做的第一點——就是提供一個平臺,把左邊變成右邊:

而第二點,我們能跨越系統各個軟件之間,包括對軟件內部的不同步驟任意重新排列組合,做成自動化的Workflow。
一次制作,反復使用,省時省力,還不用擔心中間出錯。
比如?
一 、多數據庫同時多序列比對(MSA)
多序列比對需要在多個蛋白質數據庫里進行查找。
常規使用模式,用戶要手動依次在N個數據庫里進行搜索,整個過程耗時等于N次搜索的時間之和。
我們可以讓不同數據庫的搜索同時進行,并做成一個固定Workflow,自動執行,整個過程花費時間將等于耗時最長的數據庫搜索時間。既節約時間,又省事。

二 、全計算流程與資源自由組合
不僅僅限于某一個步驟,我們能做全計算流程的自定義Workflow。
上一節我們復習了,AF2第一階段適合用CPU資源,第二階段使用GPU計算效果最佳,每個階段還涉及到不同軟件包。
整個計算過程比較復雜,需要在不同階段的不同步驟使用不同軟件包調用不同底層資源進行計算,手動操作工作量不小。而且,常規使用模式,可能會從頭到尾使用一種資源計算,這樣比較簡單,但是會比較吃虧,要么第一階段GPU純純浪費,要么第二階段慢得吐血,計算時間是原來的數倍。
我們能把整個計算流程與資源自由組合,讓用戶全程可視化操作,只需要輸入不同參數即可。既能實現應用與資源的最佳適配,還能自動化操作,省去大量手動時間。

當然,還有無數種其他組合的可能性。
不止是AlphaFold2,自定義Workflow也能應用在其他場景,戳:1分鐘告訴你用MOE模擬200000個分子要花多少錢
03
掃清技術障礙
TB級數據庫與I/O瓶頸問題
AF2訓練數據庫完整版大小約為2.62TB,數據預處理階段需要在數據庫中執行多次隨機搜索,這會導致密集的I/O讀寫。如果數據的讀取或寫入速度跟不上,就會影響到整個計算過程的效率。
這可能會導致:
1. 同一任務多次計算,耗時卻不同;
2. I/O等待超時,任務異常退出;
3. 即便增加CPU資源,也無法加速計算。
為了解決這一問題,我們對整個數據庫做了梳理和拆分。其中最大的BFD數據庫接近2T,對I/O的要求非常高。
因此,我們將高頻I/O的BFD數據庫存放在本地磁盤,其他數據庫存放在網絡共享存儲上。

這帶來了兩大好處:
第一、磁盤空間換時間,計算速度更快
將高頻訪問的BFD數據庫放在本地磁盤上,I/O讀寫速度快,非常適合需要快速響應的數據。因為本地磁盤是與機器綁定的,如果不止一臺機器,這會導致本地磁盤存儲空間增加。
而其他對I/O讀寫速度要求不高的數據庫可以放在網絡共享存儲上,方便所有機器共享讀取和寫入,減少數據同步問題。
整體來說,用磁盤空間換取時間,讓I/O對計算的影響降到最低,顯著提升了AF2的運算效率。
第二、為未來可能的大規模并發計算掃清技術障礙
關于這一點,我們進入下一節。
04
大規模并發!
同時預測100+蛋白質結構
對用戶來說,不可能一次只預測1個蛋白質結構。
那么,如果要同時預測100+蛋白質結構,怎么玩?
如果是以前,你不但需要搭好運行環境,準備好計算資源,然后一個一個預測,而且每一個還得手動走一遍完整的計算流程。這個過程一聽就十分漫長,而且容易出錯。
而現在——
已知一:我們有Workflow全流程自動化的能力,單個蛋白質預測已經是一個自動化的Workflow了;
已知二:我們解決了I/O瓶頸問題,也就是說,多臺機器對I/O讀寫瓶頸問題已經解決。
100+蛋白質結構預測,又有什么難的?

現在,我們只需要再多做一步,同時運行有100+個不同輸入參數的Workflow,就行了。而完成這一步需要具備兩個條件:
一 、充分的CPU/GPU資源
我們調用10萬核CPU資源,使用AutoDock Vina幫用戶進行了2800萬量級的大規模分子對接,將運算效率提高2920倍:提速2920倍!用AutoDock Vina對接2800萬個分子
我們智能自動化調度云端GPU/CPU異構資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務的耗時從單GPU的4個月縮短到20小時:155個GPU!多云場景下的Amber自由能計算
二 、調度器能力
這么多機器和任務,怎么適配,按什么策略使用最佳,怎么配置、啟動、關閉,提高整體資源利用率,最好還能自動化管理、輔助管理決策等等,甚至怎么DEBUG,這需要的可不止是一點點技術。
詳情可戳:國產調度器之光——Fsched到底有多能打?
到這里,這100+蛋白質預測任務,就可以一次性跑完了。
05
V100 VS A100
關于GPU的一點選型建議
那么多GPU型號,你選哪個?
市面上的GPU型號不少,性能和價格差異也很大。
我們選取了3個蛋白質,分別使用V100和A100進行了一輪計算:

可以看到,對同一個蛋白質進行結構預測,A100用時約為V100的60-64%。
而目前的市場價,無論是小時租賃、包月預留還是裸卡買斷,A100至少是V100的2倍以上。
也就是說,A100是以2倍多的價格,去換取約三分之一的性能提升。
兩相比較,除非不差錢,我們推薦使用V100。
實證小結
1.AlphaFold2是一個系統,涉及到很多數據庫和不同軟件,我們的Workflow全流程自動化,讓用戶可以隨心組合,輕松上手蛋白質結構預測;
2.我們用磁盤空間換時間的手段,既解決了TB級數據帶來的I/O瓶頸問題,也為大規模并發計算掃清了技術障礙;
3.fastone可支持多個AlphaFold2任務大規模自動并行;
4.GPU也需要選型,我們推薦V100。
本次生信實證系列Vol.15就到這里。
關于fastone云平臺在各種BIO應用上的表現,可以點擊以下應用名稱查看
Vina│Amber│?MOE│?LeDock
速石科技新藥研發行業白皮書,可以戳下方查看:
新藥研發37問?│頂尖藥企AIDD調研
- END?-
我們有個一站式新藥研發平臺
集成行業應用與自編譯軟件
支持AlphaFold、RoseTTAFold等常用AI應用
可視化Workflow隨心創建、便捷分享
提供Zinc、Drugbank等開源/自有分子庫
CADD專家團隊全面支持掃碼
免費試用,送200元體驗金,入股不虧~

更多BIO電子書
歡迎掃碼關注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
只做Best in Class的必揚醫藥說:選擇速石,是一條捷徑
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化3.5小時完成20萬分子對接
1分鐘告訴你用MOE模擬200000個分子要花多少錢
155個GPU!多云場景下的 Amber自由能計算
提速2920倍!用AutoDock Vina對接2800萬個分子
新藥研發平臺:
今日上新——FCP
專有D區震撼上市,高性價比的稀缺大機型誰不愛?
國產調度器之光——Fsched到底有多能打?
創新藥研發九死一生,CADD/AIDD是答案嗎?
全球44家頂尖藥企AI輔助藥研行動白皮書
近期重大事件:
速石科技完成龍芯、海光、超云兼容互認證,拓寬信創生態版圖
速石科技入駐粵港澳大灣區算力調度平臺,參與建設數算用一體化發展新范式
速石科技成NEXT PARK產業合伙人,共同打造全球領先的新興產業集群
速石科技出席ICCAD2023,新一代芯片研發平臺助力半導體企業縮短研發周期
速石科技與芯啟源開啟戰略合作,聯手打造軟硬件一體芯片研發云平臺
