"結(jié)構(gòu)就是功能"——蛋白質(zhì)的工作原理和作用取決于其3D形狀。
2020年末,基于深度神經(jīng)網(wǎng)絡(luò)的AlphaFold2,一舉破解了困擾生物學(xué)界長達五十年之久的“蛋白質(zhì)折疊”難題,改變了科學(xué)研究的游戲規(guī)則,可以從蛋白質(zhì)序列直接預(yù)測蛋白質(zhì)結(jié)構(gòu),實現(xiàn)了計算機蛋白質(zhì)建模極高的精確度。
自AF2問世以來,全世界數(shù)百萬研究者已經(jīng)在瘧疾疫苗、癌癥治療和酶設(shè)計等諸多領(lǐng)域取得了突破。
2024年5月初,AlphaFold3再登Nature,基于Diffusion(擴散技術(shù))架構(gòu),將技術(shù)延伸到蛋白質(zhì)折疊之外,能以原子級精度準確預(yù)測蛋白質(zhì)、DNA、RNA、配體等生命分子的結(jié)構(gòu)及相互作用。
為了避免Diffusion技術(shù)在一些無結(jié)構(gòu)區(qū)域產(chǎn)生“幻覺”,DeepMind還創(chuàng)新了一種交叉蒸餾(cross-distillation)方法,把AF2預(yù)測的結(jié)構(gòu)數(shù)據(jù)預(yù)添加到AF3的預(yù)訓(xùn)練集中,減少AF3的預(yù)測失誤。
AF2代碼已開源,AF3目測不會開源,也不能商用。
我們今天的主角——只能是AlphaFold2。
想知道怎么使用AlphaFold2最最快樂?
怎么快速完成蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù)?
我們能在背后幫你默默干點什么?
來吧——
01
先復(fù)習(xí)一下
AlphaFold2計算的正確打開方式
我們通常說的AlphaFold2是指一個利用多個外部開源程序和數(shù)據(jù)庫,通過蛋白質(zhì)序列預(yù)測其3D結(jié)構(gòu)的系統(tǒng)。
整個蛋白質(zhì)結(jié)構(gòu)預(yù)測計算過程大致可以分為兩個階段:
一、數(shù)據(jù)預(yù)處理
包括多序列比對(MSA)和模板搜索(Template Search)兩個步驟,主要是利用已知的蛋白質(zhì)序列和結(jié)構(gòu)模板,獲得不同蛋白質(zhì)之間的共有進化信息來提升目標蛋白質(zhì)結(jié)構(gòu)預(yù)測的準確性。
需要比對和搜索的數(shù)據(jù)總和達到了TB量級,涉及數(shù)據(jù)庫密集I/O讀寫,因此對I/O有較高的要求。
這一階段主要使用HMMER與HH-suite軟件,以及Uniprot、MGnify、PDB等多個蛋白質(zhì)數(shù)據(jù)庫。計算耗時與蛋白序列長度正相關(guān),主要使用CPU計算資源。
AF2訓(xùn)練數(shù)據(jù)集覆蓋多個數(shù)據(jù)庫,比如UniRef90/MGnify/PDB/BFD等,目前完整版大小約為2.62TB,是世界范圍內(nèi)較為權(quán)威的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫。2022年7月28日,Google DeepMind將數(shù)據(jù)庫從近100萬個結(jié)構(gòu)擴展到超過2億個結(jié)構(gòu),涵蓋了植物、細菌、動物和其他微生物等多個類別。
二 、模型推理與優(yōu)化
基于端到端的Transformer神經(jīng)網(wǎng)絡(luò)模型,AF2輸入Templates、MSA序列和pairing信息,其中pairing和MSA信息相互迭代更新,檢測蛋白質(zhì)中氨基酸之間相互作用的模式,輸出基于它們的3D結(jié)構(gòu)。
再用OpenMM軟件對預(yù)測的3D結(jié)構(gòu)進行物理放松,解決結(jié)構(gòu)違規(guī)與沖突。
使用Recycling(將輸出重新加入到輸入再重復(fù)refinement)進行多輪迭代訓(xùn)練和測試,多輪迭代優(yōu)化有一定的必要性,較為復(fù)雜的蛋白可能在多輪之后才能折疊到正確的結(jié)構(gòu)。
這一階段計算耗時與迭代次數(shù)正相關(guān),主要使用GPU計算資源。
02
Workflow全流程自動化
隨心組合,當一個甩手掌柜
作為一個系統(tǒng),AlphaFold2借助了多個外部開源軟件和數(shù)據(jù)庫,整個計算過程也比較復(fù)雜。
如果用戶想要自行使用,不但要下載龐大的數(shù)據(jù)庫,還需要自行搭建使用環(huán)境,對IT能力的要求不可謂不高。
用戶看到的基本都是左邊這種畫面,我們能做的第一點——就是提供一個平臺,把左邊變成右邊:
而第二點,我們能跨越系統(tǒng)各個軟件之間,包括對軟件內(nèi)部的不同步驟任意重新排列組合,做成自動化的Workflow。
一次制作,反復(fù)使用,省時省力,還不用擔心中間出錯。
比如?
一 、多數(shù)據(jù)庫同時多序列比對(MSA)
多序列比對需要在多個蛋白質(zhì)數(shù)據(jù)庫里進行查找。
常規(guī)使用模式,用戶要手動依次在N個數(shù)據(jù)庫里進行搜索,整個過程耗時等于N次搜索的時間之和。
我們可以讓不同數(shù)據(jù)庫的搜索同時進行,并做成一個固定Workflow,自動執(zhí)行,整個過程花費時間將等于耗時最長的數(shù)據(jù)庫搜索時間。既節(jié)約時間,又省事。
二 、全計算流程與資源自由組合
不僅僅限于某一個步驟,我們能做全計算流程的自定義Workflow。
上一節(jié)我們復(fù)習(xí)了,AF2第一階段適合用CPU資源,第二階段使用GPU計算效果最佳,每個階段還涉及到不同軟件包。
整個計算過程比較復(fù)雜,需要在不同階段的不同步驟使用不同軟件包調(diào)用不同底層資源進行計算,手動操作工作量不小。而且,常規(guī)使用模式,可能會從頭到尾使用一種資源計算,這樣比較簡單,但是會比較吃虧,要么第一階段GPU純純浪費,要么第二階段慢得吐血,計算時間是原來的數(shù)倍。
我們能把整個計算流程與資源自由組合,讓用戶全程可視化操作,只需要輸入不同參數(shù)即可。既能實現(xiàn)應(yīng)用與資源的最佳適配,還能自動化操作,省去大量手動時間。
當然,還有無數(shù)種其他組合的可能性。
不止是AlphaFold2,自定義Workflow也能應(yīng)用在其他場景,戳:1分鐘告訴你用MOE模擬200000個分子要花多少錢
03
掃清技術(shù)障礙
TB級數(shù)據(jù)庫與I/O瓶頸問題
AF2訓(xùn)練數(shù)據(jù)庫完整版大小約為2.62TB,數(shù)據(jù)預(yù)處理階段需要在數(shù)據(jù)庫中執(zhí)行多次隨機搜索,這會導(dǎo)致密集的I/O讀寫。如果數(shù)據(jù)的讀取或?qū)懭胨俣雀簧希蜁绊懙秸麄€計算過程的效率。
這可能會導(dǎo)致:
1. 同一任務(wù)多次計算,耗時卻不同;
2. I/O等待超時,任務(wù)異常退出;
3. 即便增加CPU資源,也無法加速計算。
為了解決這一問題,我們對整個數(shù)據(jù)庫做了梳理和拆分。其中最大的BFD數(shù)據(jù)庫接近2T,對I/O的要求非常高。
因此,我們將高頻I/O的BFD數(shù)據(jù)庫存放在本地磁盤,其他數(shù)據(jù)庫存放在網(wǎng)絡(luò)共享存儲上。
這帶來了兩大好處:
第一、磁盤空間換時間,計算速度更快
將高頻訪問的BFD數(shù)據(jù)庫放在本地磁盤上,I/O讀寫速度快,非常適合需要快速響應(yīng)的數(shù)據(jù)。因為本地磁盤是與機器綁定的,如果不止一臺機器,這會導(dǎo)致本地磁盤存儲空間增加。
而其他對I/O讀寫速度要求不高的數(shù)據(jù)庫可以放在網(wǎng)絡(luò)共享存儲上,方便所有機器共享讀取和寫入,減少數(shù)據(jù)同步問題。
整體來說,用磁盤空間換取時間,讓I/O對計算的影響降到最低,顯著提升了AF2的運算效率。
第二、為未來可能的大規(guī)模并發(fā)計算掃清技術(shù)障礙
關(guān)于這一點,我們進入下一節(jié)。
04
大規(guī)模并發(fā)!
同時預(yù)測100+蛋白質(zhì)結(jié)構(gòu)
對用戶來說,不可能一次只預(yù)測1個蛋白質(zhì)結(jié)構(gòu)。
那么,如果要同時預(yù)測100+蛋白質(zhì)結(jié)構(gòu),怎么玩?
如果是以前,你不但需要搭好運行環(huán)境,準備好計算資源,然后一個一個預(yù)測,而且每一個還得手動走一遍完整的計算流程。這個過程一聽就十分漫長,而且容易出錯。
而現(xiàn)在——
已知一:我們有Workflow全流程自動化的能力,單個蛋白質(zhì)預(yù)測已經(jīng)是一個自動化的Workflow了;
已知二:我們解決了I/O瓶頸問題,也就是說,多臺機器對I/O讀寫瓶頸問題已經(jīng)解決。
100+蛋白質(zhì)結(jié)構(gòu)預(yù)測,又有什么難的?
現(xiàn)在,我們只需要再多做一步,同時運行有100+個不同輸入?yún)?shù)的Workflow,就行了。而完成這一步需要具備兩個條件:
一 、充分的CPU/GPU資源
我們調(diào)用10萬核CPU資源,使用AutoDock Vina幫用戶進行了2800萬量級的大規(guī)模分子對接,將運算效率提高2920倍:提速2920倍!用AutoDock Vina對接2800萬個分子
我們智能自動化調(diào)度云端GPU/CPU異構(gòu)資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務(wù)的耗時從單GPU的4個月縮短到20小時:155個GPU!多云場景下的Amber自由能計算
二 、調(diào)度器能力
這么多機器和任務(wù),怎么適配,按什么策略使用最佳,怎么配置、啟動、關(guān)閉,提高整體資源利用率,最好還能自動化管理、輔助管理決策等等,甚至怎么DEBUG,這需要的可不止是一點點技術(shù)。
詳情可戳:國產(chǎn)調(diào)度器之光——Fsched到底有多能打?
到這里,這100+蛋白質(zhì)預(yù)測任務(wù),就可以一次性跑完了。
05
V100 VS A100
關(guān)于GPU的一點選型建議
那么多GPU型號,你選哪個?
市面上的GPU型號不少,性能和價格差異也很大。
我們選取了3個蛋白質(zhì),分別使用V100和A100進行了一輪計算:
可以看到,對同一個蛋白質(zhì)進行結(jié)構(gòu)預(yù)測,A100用時約為V100的60-64%。
而目前的市場價,無論是小時租賃、包月預(yù)留還是裸卡買斷,A100至少是V100的2倍以上。
也就是說,A100是以2倍多的價格,去換取約三分之一的性能提升。
兩相比較,除非不差錢,我們推薦使用V100。
實證小結(jié)
1.AlphaFold2是一個系統(tǒng),涉及到很多數(shù)據(jù)庫和不同軟件,我們的Workflow全流程自動化,讓用戶可以隨心組合,輕松上手蛋白質(zhì)結(jié)構(gòu)預(yù)測;
2.我們用磁盤空間換時間的手段,既解決了TB級數(shù)據(jù)帶來的I/O瓶頸問題,也為大規(guī)模并發(fā)計算掃清了技術(shù)障礙;
3.fastone可支持多個AlphaFold2任務(wù)大規(guī)模自動并行;
4.GPU也需要選型,我們推薦V100。
本次生信實證系列Vol.15就到這里。
關(guān)于fastone云平臺在各種BIO應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看
Vina│Amber│?MOE│?LeDock
速石科技新藥研發(fā)行業(yè)白皮書,可以戳下方查看:
新藥研發(fā)37問?│頂尖藥企AIDD調(diào)研
- END?-
我們有個一站式新藥研發(fā)平臺
集成行業(yè)應(yīng)用與自編譯軟件
支持AlphaFold、RoseTTAFold等常用AI應(yīng)用
可視化Workflow隨心創(chuàng)建、便捷分享
提供Zinc、Drugbank等開源/自有分子庫
CADD專家團隊全面支持掃碼
免費試用,送200元體驗金,入股不虧~
更多BIO電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
只做Best in Class的必揚醫(yī)藥說:選擇速石,是一條捷徑
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化3.5小時完成20萬分子對接
1分鐘告訴你用MOE模擬200000個分子要花多少錢
155個GPU!多云場景下的 Amber自由能計算
提速2920倍!用AutoDock Vina對接2800萬個分子
新藥研發(fā)平臺:
今日上新——FCP
專有D區(qū)震撼上市,高性價比的稀缺大機型誰不愛?
國產(chǎn)調(diào)度器之光——Fsched到底有多能打?
創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?
全球44家頂尖藥企AI輔助藥研行動白皮書
近期重大事件:
速石科技完成龍芯、海光、超云兼容互認證,拓寬信創(chuàng)生態(tài)版圖
速石科技入駐粵港澳大灣區(qū)算力調(diào)度平臺,參與建設(shè)數(shù)算用一體化發(fā)展新范式
速石科技成NEXT PARK產(chǎn)業(yè)合伙人,共同打造全球領(lǐng)先的新興產(chǎn)業(yè)集群
速石科技出席ICCAD2023,新一代芯片研發(fā)平臺助力半導(dǎo)體企業(yè)縮短研發(fā)周期
速石科技與芯啟源開啟戰(zhàn)略合作,聯(lián)手打造軟硬件一體芯片研發(fā)云平臺
LeDock是蘇黎世大學(xué)Zhao HongTao在博士期間開發(fā)的一款分子對接軟件,專為快速準確地將小分子靈活對接到蛋白質(zhì)而設(shè)計。
LeDock優(yōu)于大部分商業(yè)軟件,在Astex多樣性集合上實現(xiàn)了大于90%的構(gòu)象預(yù)測準確度,對接時間最快僅需三秒。
LeDock同時支持Windows、Linux和MacOS三大操作系統(tǒng)。
Linux版支持大規(guī)模虛擬篩選,需要通過代碼操作才能實現(xiàn)目標。
Windows版的圖形界面極大簡化了藥物化學(xué)家常見多重復(fù)雜的對接過程,但每次任務(wù)只能對接一個分子,效率極低,只適用于少量對接場景。
如果考慮到不少用戶還有分子庫相關(guān)的需求,無論哪種版本,對用戶來說,都有點難搞。
今天我們就通過一個LeDock實證來聊聊,怎么幫助大家愉快地(不寫代碼)提高大規(guī)模分子對接效率(少點手動),甚至還能解決一些別的問題(一些爽點),擴大實驗的空間和范圍,放飛研發(fā)人員的想象力。
科研這件事,還是需要有點兒想象空間的。
用戶需求
某藥企藥物化合部想使用LeDock進行20萬分子對接任務(wù),但本地只有兩臺48核的工作站。
如果按Windows版的一對一串行對接模式,假設(shè)按1分鐘一個算吧,不吃不喝不睡不關(guān)機,也要對接138天。如果再加上中間出錯修改、參數(shù)配置、分子庫處理,無數(shù)次重復(fù)手動操作步驟,就,沒法算了。。。
如果用Linux版,這一時長就取決于兩個點:本地擁有的資源數(shù)量和IT能力的高低。
所以,他們有以下幾個問題:
1. 基于現(xiàn)實條件,怎么快速達成用LeDock跑20萬分子對接任務(wù)這個目標?
2. 能不能使用更友好的圖形界面來進行操作?甚至把一些工作流程固定,下次直接就能用,還可以分享給同事?
3. 能不能幫忙準備分子庫?
實證目標
1、能否讓用戶擁有Windows版和Linux版的雙重優(yōu)點,不用寫代碼,也能實現(xiàn)大規(guī)模虛擬篩選?
2、LeDock任務(wù)能否在fastone云平臺大規(guī)模運行且效率顯著提升?
3、用戶很多常見復(fù)雜的手動操作,能不能自動化進行?
4、是否能為用戶提供開箱即用的分子庫?
實證參數(shù)
產(chǎn)品類型:
速石FCC-E產(chǎn)品
操作系統(tǒng)及應(yīng)用:
LeDock Linux版
適用場景:
研究配體和受體(藥物分子)相互作用的模擬方法
云端硬件配置:本任務(wù)屬于CPU密集型任務(wù),對內(nèi)存的需求不高,因此我們選擇了高性價比的云端計算優(yōu)化型實例(CPU/內(nèi)存=1:2)。
用戶完整工作流程圖
用戶打開應(yīng)用,提交蛋白質(zhì)pdb文件,選擇分子庫文件和資源后,由fastone平臺進行分子對接并打分,用戶可直接查看結(jié)果,提取目標分子,進行下一步化合物研究。
實證過程
一、開箱即用,一鍵定位&加密的分子庫
1. 開箱即用的分子庫
對接開始前,用戶除了蛋白質(zhì)pdb文件,還需要準備分子庫文件。分子庫大多來自海外,其本身的大小和數(shù)據(jù)質(zhì)量,直接影響著后續(xù)虛擬篩選階段的命中率。對用戶來說,需要將分子庫從外網(wǎng)下載到本地,有些數(shù)據(jù)量動輒幾十T,如果還涉及分子結(jié)構(gòu)從2D轉(zhuǎn)換到3D等復(fù)雜處理,運算量相當大,要么耗時間,要么耗錢。
我們已經(jīng)準備好開箱即用的分子庫供用戶使用,包括:Zinc、DrugBank、Maybridge、Enamine等。
因為LeDock僅支持mol2格式,fastone平臺會在對接前,自動將sdf格式轉(zhuǎn)換成多分子mol2格式文件,同時完成拆分,使單個分子對應(yīng)一個mol2文件。否則,直接把多分子mol2文件放進去對接,只會讀取第一個分子。
2. 一鍵定位&加密的分子庫索引系統(tǒng)
用戶篩選完分子后,還要在20萬個分子的原始庫里迅速定位并提取出來。這難度不亞于只知道書名但要在圖書館里找書,茫茫書海,大海撈針。
我們的分子庫索引系統(tǒng)就派上了大用場。
這套索引和圖書館索引系統(tǒng)類似,將原始分子名字通過加密轉(zhuǎn)換成唯一ID, ID相當于GPS定位,表示該分子在原始庫里的具體位置。
比如,某分子的唯一ID為“A-G22-18578”,即表示他位于分子庫A區(qū)G22柜的第18578個,可以輕松將分子提取出來。
這道索引系統(tǒng)相當于為原始分子庫做了一道數(shù)據(jù)加密和定位系統(tǒng),除了用戶沒人知道最終提取出來的是哪些分子,既保護了數(shù)據(jù)的安全性,又讓用戶能迅速定位到某個分子。
二、云端大規(guī)模業(yè)務(wù)驗證
200000個分子上云
用戶使用fastone平臺,在云端調(diào)度768核計算資源,成功對接200000個分子,從中篩選出了300個分子,進行下一步的化合物研究。此次任務(wù)對接共耗時3.5小時,平均對接一個分子只需45S。
這里要說明一下,這個45S不是純分子對接時間,是包括了用戶的整個工作流程所有操作在內(nèi)的。而且,不同分子之間的對接時長是不一樣的,時間會被對接得慢的分子拉長,無法直接橫向?qū)Ρ取1热缬脩粼谶M行3萬分子對接的時候,平均時長卻達到了90S。
實證過程:
1. 云端調(diào)度48核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時3262.6分鐘;
2. 云端調(diào)度96核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時1630.8分鐘;
3. 云端調(diào)度192核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時815.1分鐘;
4. 云端調(diào)度384核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時407.2分鐘;
5. 云端調(diào)度768核計算優(yōu)化型實例運算一組LeDock任務(wù)(對接約200000個分子),耗時203.3分鐘。
從圖上可以看出,LeDock任務(wù)在云端的線性擴展性表現(xiàn)良好,當云端資源增加到768核之后,運算時間縮短到了3個多小時,極大地提升了運行效率。
即使當分子數(shù)量增加到2800萬這個量級,我們調(diào)用10萬核CPU資源,在AutoDock Vina這個應(yīng)用上也同樣表現(xiàn)優(yōu)秀,可參考《提速2920倍!用AutoDock Vina對接2800萬個分子》
三、自動,自動,全是自動
1. 單機模式VS并行化
我們把跑分子對接這個任務(wù)分成三種不同的IT難度等級 :
沒有難度:單機單CPU核,單任務(wù)。
中等難度:單機多CPU核,多任務(wù)。
王者難度:多機多CPU核,多任務(wù)。
想要對三種難度等級深入了解,看這里《揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事》
如果按照“沒有難度”這個等級,200000個分子串行排隊,一個任務(wù)跑1分鐘,我們開頭已經(jīng)算過了,基本沒什么現(xiàn)實可操作性。
我們直接將你帶飛到"王者難度",在n臺n核的機器上跑,效率提升n*n倍,理論上n可以無限大。這個數(shù)字用戶可以自行設(shè)定。
2. 一次設(shè)定,跑完20萬個任務(wù)
怎么把一些工作流程固定,不用一次次重新設(shè)定,下次直接一鍵使用。甚至還可以分享給其他同事,提高大家的工作效率?
到了速石傳統(tǒng)藝能項目—自定義模板出馬的時候了。
我們將用戶跑LeDock的工作流程固定成一套模板:
step 1:用戶提交蛋白質(zhì)pdb文件;
step 2:用戶選擇sdf格式分子庫文件;
step 3:fastone平臺自動將sdf格式轉(zhuǎn)換為mol2格式分子庫文件;
step 4:fastone平臺自動進行多分子拆分;
step 5:fastone平臺將蛋白質(zhì)、參數(shù)文件與mol2格式分子進行對接;
step 6:fastone平臺掃描所有已完成對接的分子,進行打分;
step 7:用戶查看打分結(jié)果;
step 8:用戶篩選并從分子庫里提取出分子,進行下一步化合物研究。
用戶在這個模板的基礎(chǔ)上,自行調(diào)整各項參數(shù),就能按這個流程一路跑下去了。
一次設(shè)定,反復(fù)使用,省時省力,還不用擔心以后不小心出錯。
這套自定義模板不但能分享,還可以跨應(yīng)用設(shè)定,可以展開看看《1分鐘告訴你用MOE模擬200000個分子要花多少錢》
3. 自動檢查文件完整性
這個自動檢查包括兩個部分:
第一,用戶上傳配置文件的同時,速石平臺內(nèi)置的檢查程序,會自動檢查文件完整性。
每個步驟需要用到的文件量很可能不一致,如果用戶運行到第五六步了,才發(fā)現(xiàn)某個上傳文件有問題,應(yīng)該會非常崩潰。
第二,對接完成后,我們會對完成打分的文件數(shù)和初始文件庫做日志校驗,看數(shù)據(jù)是否有丟失。平常情況下,用戶可能很難察覺。
在這種大規(guī)模任務(wù)下,自動檢查程序能大大降低用戶任務(wù)返工率,以及協(xié)助用戶判斷運行過程中是否有問題。有些問題靠人力可能無力檢查。
4. 兩種場景下的重復(fù)提交任務(wù)功能和自動監(jiān)控告警
放著機器通宵跑任務(wù)時總會幻想:第二天一早,任務(wù)已經(jīng)跑完了,完美。
現(xiàn)實是:任務(wù)才跑了10%。
任務(wù)出錯,進度條卡住,可能會有兩種情形:
第一種:每個任務(wù)之間獨立,彼此沒有關(guān)聯(lián)。
一般任務(wù)數(shù)量越多,失敗的任務(wù)數(shù)量大概率也會變多,比如對接1萬個分子,有可能會有50個失敗任務(wù);20萬個分子,可能有1000個失敗任務(wù)。
第二種:每個任務(wù)間有明確的先后處理順序,必須從A任務(wù)按序跑到Z。
假如到F任務(wù)就失敗了,整個任務(wù)就此停滯,涼涼。
自動檢查任務(wù)狀態(tài)并對失敗任務(wù)及時重復(fù)提交的功能,就是這種場景的克星,尤其是第二種,不然等待著你的,大概就是通宵,同時睜大你的雙眼了。我們的任務(wù)監(jiān)控告警功能,還會時刻監(jiān)控任務(wù)狀態(tài),通過IM及時通知用戶,任務(wù)出現(xiàn)異常或已經(jīng)完成。
我們還見到過一種特殊情況,Amber用GPU跑任務(wù)速度快,CPU較慢,但使用GPU計算時存在10%-15%的失敗概率。一旦任務(wù)失敗,需要調(diào)度CPU重新計算。
能否及時且自動地處理失敗任務(wù),將極大影響運算周期。如果想了解我們怎么應(yīng)對的,請點擊《155個GPU!多云場景下的Amber自由能計算》
實證小結(jié)
1、LeDock 大規(guī)模云端篩選毫無壓力,運行效率呈線性顯著提升;
2、fastone平臺能提供開箱即用,且能一鍵定位&加密的分子庫;
3、fastone 能為用戶定制自定義模板,一次設(shè)定,反復(fù)使用,界面友好;
4、fastone平臺提供的自動化檢查程序和重復(fù)提交任務(wù)功能,極大降低用戶的工作量;
5、用戶在20萬個分子對接任務(wù)中,篩選出了300個分子,進行下一步的化合物研究工作。
本次生信行業(yè)云實證系列Vol.12就到這里。
關(guān)于fastone云平臺在其他應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:
HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ MOE │ LS-DYNA │ Virtuoso│ COMSOL
- END -
我們有個生物/化學(xué)計算云平臺
集成多種CAE/CFD應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書 歡迎掃碼關(guān)注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺:
Uni-FEP on fastone|速石科技攜手深勢科技,助力創(chuàng)新藥物研發(fā)提速
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
【大白話】帶你一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
做化學(xué)/生物這一類計算,場景很多,應(yīng)用選擇范圍也相當大,甚至同一場景可能用到很多不同的應(yīng)用。就拿分子對接舉例,相關(guān)軟件就有開源的和商業(yè)的不下數(shù)十種。
熟悉并習(xí)慣一種應(yīng)用,已經(jīng)需要不低的學(xué)習(xí)成本,何況這些應(yīng)用往往還留了一些API接口給用戶,需要寫一些腳本才能運行。
而且很多時候,現(xiàn)成的應(yīng)用是無法滿足用戶的研究需求的,需要用戶自己來編程。
另一個角度:
如果計算量突增,就會涉及到大規(guī)模計算資源的調(diào)用,可能涉及本地服務(wù)器、集群,甚至超算和公有云。
或者計算量還好,但是不想再重復(fù)勞動,能不能一次操作完成所有需要手動一次次做的事,一百次就忍了,一千次,一萬次呢?
或者不需要團隊每個人重復(fù)一遍同樣的學(xué)習(xí)過程,做個模板它不香嗎?
工具的最大價值,是把人從機械性的重復(fù)勞動中解放出來,騰出時間來思考更重要的事。
今天我們就通過一個MOE實證來聊聊,我們怎么幫你降低工作量(偷懶),節(jié)約時間,甚至預(yù)測未來。
用戶需求
某高校課題組使用MOE對數(shù)據(jù)庫中的約200000個分子進行模擬,希望在2天內(nèi)完成計算。根據(jù)以往經(jīng)驗,單核CPU模擬一個分子所需的時間約為4分鐘,該課題組當前可使用的機房CPU資源最多為64核,需要一周以上才能完成任務(wù)。
課題組老師希望借助云端獲取更多計算資源,而且由于課題組團隊有多名學(xué)生,所以需要一個既能快速啟用滿足需求,同時又操作簡單便于管理的解決方案。
實證目標
1、MOE任務(wù)是否能在云端有效運行?
2、fastone平臺能否將大規(guī)模MOE任務(wù)的運算時間縮短到2天以內(nèi)?
3、fastone平臺能否快速啟用,同時方便老師對整個團隊進行管理?
4、由于不是所有的學(xué)生的計算機基礎(chǔ)都非常強,fastone能否為其提供相對簡單可行的操作方式?
實證參數(shù)
平臺: fastone 企業(yè)版產(chǎn)品
應(yīng)用: MOE
操作系統(tǒng):Linux CentOS 7.5
適用場景:3D分子可視化、基于結(jié)構(gòu)/片段的藥物設(shè)計、蛋白質(zhì)/DNA/RNA建模、虛擬篩選、分子模擬、化學(xué)信息學(xué)
云端硬件配置:計算優(yōu)化型實例本任務(wù)屬于CPU密集型任務(wù),對內(nèi)存的需求不高,因此我們選擇了高性價比的云端計算優(yōu)化型實例(CPU/內(nèi)存=1:2)。
技術(shù)架構(gòu)圖:
第一步:我們先做一波應(yīng)用優(yōu)化
應(yīng)用優(yōu)化分成兩部分,自定義工作流和并行化改造。
1、自定義工作流模板一次制作,反復(fù)使用
正如我們開頭說的,很多時候,現(xiàn)成的應(yīng)用往往無法滿足用戶的需求,需要根據(jù)自己的模型和研究目標,自定義設(shè)置一套獨有的工作流程。
在生命科學(xué)領(lǐng)域,可以說幾乎沒有一模一樣的工作流。
而用戶在進行了一次或多次復(fù)雜的設(shè)定之后,如果能把這些設(shè)定保存成固定模板,就不用重復(fù)手動去一步步重新設(shè)置。十次百次還能忍,一千次呢?一次制作,反復(fù)使用,省時省力,還不用擔心中間出錯。
我們fastone平臺已經(jīng)實現(xiàn)包括MOE在內(nèi)多款應(yīng)用的自定義工作流,可以根據(jù)用戶的實際使用場景自定義模板。
而且,這套自定義的設(shè)置是可以跨應(yīng)用存在的,不一定局限在一個應(yīng)用范圍內(nèi)。自己重復(fù)用,共享給團隊的其他人用,都可以。
我們這套自動化的原則,不僅存在于應(yīng)用層面,同時也能在資源的調(diào)度和部署層面實現(xiàn)。比如不用再一臺臺機器手動安裝配置,不用時刻盯著任務(wù)進程。
自動化部署相比手動模式究竟有哪些優(yōu)勢?看這里《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?》
2、應(yīng)用并行化改造
應(yīng)用并行化改造,通俗地講,就是你在云端弄到了1000核資源,怎么把任務(wù)扔到云端,讓其能夠在1000核資源上高效地跑起來,這就是應(yīng)用并行化改造需要解決的問題。
像MOE這樣的應(yīng)用,由于單分子計算時間短,分子計算獨立,子任務(wù)之間沒有通信開銷,輸入輸出數(shù)據(jù)量小,特別適合并行化運行。改造完成后,MOE任務(wù)可在云端分為若干子任務(wù)獨立計算,節(jié)省大量時間。
如何從零開始進行應(yīng)用并行化改造,可以看這篇《EDA云實證Vol.7:揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事》
這一波應(yīng)用優(yōu)化做完后,用戶可以省時省力地利用云端資源,輕松提升應(yīng)用運行效率。
第二步:我們開始大規(guī)模MOE任務(wù)上云
云端擴展性驗證
本地/云端計算優(yōu)化型實例
3000個分子
結(jié)論:
1、同等核數(shù)下,云端計算優(yōu)化型實例的表現(xiàn)與本地計算資源相差無幾;
2、對應(yīng)用進行并行化改造后,隨著云端核數(shù)的增加,運算時間呈線性下降。當CPU核數(shù)從64核增加到384核(6倍)之后,運算時間從188.9分鐘縮短為32.2分鐘(5.9倍)。
實證過程:
1、本地使用64核計算資源運算一組MOE任務(wù)(模擬約3000個分子),耗時190.4分鐘;
2、云端調(diào)度64核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時188.9分鐘;
3、云端調(diào)度128核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時94.7分鐘;
4、云端調(diào)度256核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時47.4分鐘;
5、云端調(diào)度384核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約3000個分子),耗時32.2分鐘。
云端大規(guī)模業(yè)務(wù)驗證 200000個分子
結(jié)論:云端調(diào)度384核計算資源,將一組MOE任務(wù)(模擬約200000個分子)的計算周期從本地預(yù)估的8.7天縮短為1.5天,符合“2天內(nèi)完成”的任務(wù)目標。
實證過程:
1、云端調(diào)度64核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時12576分鐘(與本地機房64核的預(yù)估時間相仿);
2、云端調(diào)度128核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時6290分鐘;
3、云端調(diào)度256核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時3146分鐘;
4、云端調(diào)度384核計算優(yōu)化型實例運算一組MOE任務(wù)(模擬約200000個分子),耗時2138分鐘。
在本實證中,無論是模擬3000個分子還是200000個分子,MOE的線性擴展都相對良好,當云端資源增加到384核之后,運算時間已經(jīng)成功縮短到了2天以內(nèi)。
即便模擬的分子數(shù)量增加到百萬甚至千萬級別,經(jīng)過應(yīng)用并行化處理的MOE依舊可以很好地應(yīng)對,同時fastone平臺還支持使用對象存儲自動優(yōu)化存儲效率和費用,以最大化地降本增效。
有些應(yīng)用特性不一樣,如LS-DYNA和Fluent這兩個應(yīng)用,隨著計算節(jié)點規(guī)模的增加,節(jié)點間通信開銷會指數(shù)級上升,性能的提升便隨之變緩。這種情況,我們也有經(jīng)驗:
《怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?》
《LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置》
第三步:智能預(yù)測成本,提前心里有底
在期限內(nèi)成功完成了200000個分子的模擬之后,課題組開始計劃下一步任務(wù)。 出于對課題總體預(yù)算的把控,老師希望能對幾個大規(guī)模MOE運算任務(wù)的花費進行預(yù)估,做到心中有數(shù),以便及時調(diào)整計劃。
這時候,就輪到fastone平臺的智能預(yù)測功能發(fā)揮了。
用戶在fastone平臺的圖形化操作界面運算MOE任務(wù),完成以下步驟:
1、用戶上傳數(shù)據(jù)文件(平臺自動解析文件,判斷其中包含的分子數(shù)量)
2、用戶輸入期望的運算時間(平臺推薦用戶適配機型或用戶自行選擇機型)
3、系統(tǒng)得出預(yù)測成本:
根據(jù)不同用戶的需求,fastone平臺還可以為用戶分別提供成本優(yōu)先和時間優(yōu)先的智能調(diào)度策略《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》
老師可以根據(jù)預(yù)測成本提前權(quán)衡,并在此基礎(chǔ)上進行預(yù)算管控。
而對于企業(yè)用戶,涉及到預(yù)算審批流程,這塊就顯得更為重要,項目負責人能夠非常方便地使用該功能預(yù)估項目費用,完成項目規(guī)劃和申請。
第四步:權(quán)限和角色管理,團隊必備
對于團隊來說,fastone平臺的權(quán)限和角色管理功能,支持管理員角色對每一個用戶進行相關(guān)權(quán)限設(shè)定,包括預(yù)算使用上限和CPU核數(shù)使用上限。
這是很多團隊在上云時都可能面臨的問題——團隊成員共用一個賬戶,共享一個資源池和總預(yù)算額度。團隊管理者——通常是課題組老師——對于項目整體消耗的總資源和總預(yù)算有一個清晰的概念,但往往很難對具體的操作人員進行計算資源和預(yù)算上限管控。
云計算的靈活性和擴展性使得這種管理的重要性大大提升,這里就有一個反面教材《2小時,賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析》
fastone平臺的權(quán)限控制功能方便管理員從全局角度管控項目的資源消耗。該功能與智能預(yù)測配合使用,能夠從多個層面對預(yù)算和資源進行全方位規(guī)劃。
實證小結(jié)
1、MOE任務(wù)能夠在云端有效運行;
2、fastone平臺成功將大規(guī)模MOE任務(wù)的運算時間縮短到了2天以內(nèi);
3、fastone平臺自定義工作流模板功能讓用戶一次制作,反復(fù)使用,既適配生命科學(xué)領(lǐng)域應(yīng)用特性,又大幅提升用戶和團隊工作效率;
4、fastone平臺的智能預(yù)測、權(quán)限和角色管理功能讓課題組老師能夠更輕松進行團隊管理和項目規(guī)劃。
本次生命科學(xué)行業(yè)云實證系列Vol.9就到這里了。下一期的生信云實證,我們聊Schr?dinger。 請保持關(guān)注哦!
關(guān)于fastone云平臺在其他應(yīng)用上的表現(xiàn),可以點擊以下應(yīng)用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA
- END -
我們有個生物/化學(xué)計算云平臺
集成多種生命科學(xué)領(lǐng)域應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時5分鐘
快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關(guān)注小F(ID:imfastone)獲取
你也許想了解具體的落地場景:
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺:
2小時,賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
EDA云平臺49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
對藥物分子的虛擬篩選,僅僅實現(xiàn)分子對接是不夠的,往往會面臨一個問題就是藥物分子活性的評價。許多藥物和其它生物分子的活性都是通過與受體大分子之間的相互作用表現(xiàn)出來的,是動態(tài)的。
受體和配體之間結(jié)合自由能(Binding Afinity)評價是基于結(jié)構(gòu)的計算機輔助藥物分子設(shè)計的核心問題。
基于分子動力學(xué)(Molecular Dynamics, MD)模擬的煉金術(shù)自由能(Alchemical Free Energy,AFE)計算是提高我們對各種生物過程的理解以及加快多種疾病的藥物設(shè)計和優(yōu)化的關(guān)鍵工具。
MD模擬實驗數(shù)據(jù)量大,計算周期長,常用軟件包括Amber、NAMD、GROMACS、Schr?dinger等等。GPU的并行處理技術(shù)能大大加速計算效率,所以很多MD模擬軟件都開始支持GPU。
GROMACS作為一款開源軟件,完全免費,但其成熟版本對于GPU的支持并不理想,教程相對少,對用戶的要求比較高。
Schr?dinger是商用軟件,功能全面,GPU支持很好,但License是按使用核數(shù)計算的,價格相對昂貴。
Amber軟件包包括兩個部分:AmberTools和Amber。
AmberTools可以在Amber官網(wǎng)免費下載和使用,Tools中包含了Amber絕大部分模塊,但不支持PMEMD和GPU加速。
Amber是收費的,從Amber11開始支持GPU加速仿真,Amber18開始支持GPU計算自由能,且教程齊全易操作,不限制CORE的使用數(shù)量。2020年4月,已經(jīng)更新到Amber20版本。
學(xué)術(shù)/非營利組織/政府:500美元
企業(yè):新Amber20用戶 20000美元(原Amber18用戶 15000美元)
今天實證的主角是Amber,有幾個重點我們先說為敬:
第一、不同GPU型號價格差異極大,對Amber自由能計算的適配度和運算效率也不同,如何為用戶選擇最匹配的資源類型;
第二、用戶對GPU的需求量比較大,而不同云廠商提供的可用GPU資源數(shù)量不確定,價格差異也很大,可能需要跨多家云廠商調(diào)度,如何實現(xiàn)?同時,盡可能降低成本;
第三、用戶使用的Amber18版本,根據(jù)我們的經(jīng)驗,在使用GPU計算時存在10%-15%的失敗概率。一旦任務(wù)失敗,需要調(diào)度CPU重新計算,能否及時且自動地處理失敗任務(wù),將極大影響運算周期。
某高校研究所對一組任務(wù)使用Amber18進行自由能計算,使用本地48核CPU資源需要12小時,而使用1張GPU卡運算該組任務(wù)只需3小時。
該研究所目前面臨16008個任務(wù)需要使用Amber18進行自由能計算,負責人根據(jù)以往數(shù)據(jù)估算使用本地CPU資源可能要1年以上才能完成任務(wù),使用單個GPU需要至少4個月,周期過長,課題等不了。
因此,他們迫切希望通過使用云上資源,尤其是GPU資源來快速補充本地算力的不足,更快完成任務(wù)。
1、Amber自由能計算能否在云端有效運行?
2、fastone是否能為用戶選擇合適的GPU實例類型?
3、fastone平臺是否能在短時間內(nèi)獲取足夠的GPU資源,大幅度縮短項目周期?
4、Amber18版本運行GPU的失敗概率問題,fastone平臺是否能有效處理?
平臺:
fastone企業(yè)版產(chǎn)品
應(yīng)用:
Amber18
操作系統(tǒng):
CentOS 7.5
適用場景:
基于分子動力學(xué)模擬的自由能預(yù)測
云端硬件配置:
NVIDIA Tesla K80
NVIDIA Tesla V100
調(diào)度器:
Slurm
技術(shù)架構(gòu)圖:
新版的GPU資源,運行速度快,但是價格高。
老版的GPU資源,價格是便宜了,但是運行速度也慢。
老機型就一定劃算嗎?這可不一定。
結(jié)論:
1、無論是從時間效率還是成本的角度,都應(yīng)選擇更新型的NVIDIA Tesla V100;
2、在云端運算相同的Amber18任務(wù)時,NVIDIA Tesla K80的耗時是NVIDIA Tesla V100的約5-6倍,從時間效率的角度,V100明顯占優(yōu);
3、NVIDIA Tesla K80云端GPU實例的定價約為NVIDIA Tesla V100云端GPU實例的不到三分之一(某公有云廠商官網(wǎng)上單個K80的按需價格為0.9美元/小時,V100則為3.06美元/小時),綜合計算得出V100的性價比是K80的約1.4-1.8倍。
實證過程:
1、云端調(diào)度1個NVIDIA Tesla K80云端GPU實例運算A組Amber任務(wù),耗時16.5小時;
2、云端調(diào)度1個NVIDIA Tesla K80云端GPU實例運算B組Amber任務(wù),耗時2.5小時;
3、云端調(diào)度1個NVIDIA Tesla V100云端GPU實例運算A組Amber任務(wù),耗時3.3小時;
4、云端調(diào)度1個NVIDIA Tesla V100云端GPU實例運算B組Amber任務(wù),耗時0.4小時。
結(jié)論:
fastone平臺根據(jù)用戶任務(wù)需要和特性,跨兩家公有云廠商,智能自動化調(diào)度云端GPU/CPU異構(gòu)資源,包括155個NVIDIA Tesla V100和部分CPU資源,將運算16008個Amber任務(wù)的耗時從單GPU的4個月縮短到20小時。
1、怎么通過Auto-Scale功能提高GPU資源的利用率?
用戶的Amber任務(wù)運算時存在依從機制,即每12個任務(wù)中包含1個主任務(wù),只有當主任務(wù)運行結(jié)束后,其他11個任務(wù)才能開始并行運算。
在本場景中,由于任務(wù)數(shù)量高達16008個,這就意味著有1334個主任務(wù)需要率先跑完。
本次實證中:
第一,任務(wù)有先后,所以需要先跑主任務(wù),在每個主任務(wù)完成之后自動調(diào)度資源并行運算其他11個任務(wù);
第二,不同任務(wù)完成時間可能不同,對資源的需求量可能時高時低有波動,最終結(jié)束關(guān)機時間也不同。
fastone平臺使用Slurm調(diào)度器按順序調(diào)度任務(wù)排隊,Auto-Scale功能可自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地開啟與關(guān)閉所需算力資源,在提升效率的同時有效降低成本。
關(guān)鍵是,一切都是自動的。
隨任務(wù)需要自動化開機和關(guān)機到底有多省錢省心,誰用誰知道。
用戶還可根據(jù)自己需求,設(shè)置自動化調(diào)度集群規(guī)模上下限,相比手動模式能夠節(jié)省大量時間與成本。
調(diào)度器是干嘛的,為什么大規(guī)模集群需要用到調(diào)度器,有哪些流派,不同調(diào)度器之間區(qū)別是什么等等問題可以參考億萬打工人的夢:16萬個CPU隨你用
2、任務(wù)用GPU運算失敗,怎么及時用CPU自動重算?
Amber18在使用GPU時計算時有10-15%概率失敗,需要及時調(diào)度CPU資源重新計算,這里會涉及到一個問題:錯誤的任務(wù)能否及時重新用CPU運行。(注:該問題已在Amber20中修復(fù))
跟上一點一樣,自動化還是手動的部署差別非常大。
失敗任務(wù)自動跳出來重新運行,嗯,就是這么乖巧。
自動化模式和手動模式到底多大差別,多省錢省心可以看這篇:EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
本次實證中:
由于任務(wù)總數(shù)高達16008個,全部使用GPU計算,預(yù)計將會有1600-2400個任務(wù)算錯,對自動化調(diào)度CPU資源的響應(yīng)速度和規(guī)模提出了很高的要求。
fastone平臺提供的智能調(diào)度策略,能在使用GPU資源計算失敗時,自動定位任務(wù)并按需開啟CPU資源,對該任務(wù)重新進行計算,直到計算完成為止。
3、GPU資源的多云調(diào)度,如何兼顧成本和效率,最大化用戶利益?
云上的GPU可用資源有限,155個NVIDIA Tesla V100不是一個小數(shù)目,單個公有云廠商單區(qū)域資源未必能夠隨時滿足需求。
本次實證中:
第一,涉及到跨兩家公有云廠商之間的資源調(diào)度;
第二,GPU資源的在不同云廠商之間有著顯著的差異,而且往往資源多的售價高,便宜的資源少,怎么兼顧成本和效率。
以各大公有云廠商在北京地區(qū)的GPU實例(V100)按需價格為例,最高價格超過最低價2倍。
關(guān)于不同云廠商之間的價格比較和SPOT競價實例到底能有多便宜,可以看這篇:【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
fastone平臺可綜合考量用戶對完成任務(wù)所需時間和成本的具體要求,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區(qū)、跨云廠商調(diào)度所需資源。
下圖場景是出于成本優(yōu)化目的,我們?yōu)橛脩糇詣诱{(diào)度本區(qū)域及其他區(qū)域的目標類型或相似類型SPOT實例資源。
具體看這篇:生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子
本次實證,fastone平臺完美解決了以上三個挑戰(zhàn):
第一,自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地自動化開啟與關(guān)閉所需算力資源,提高GPU資源利用率;
第二,在GPU資源計算失敗時,自動定位任務(wù)并按需開啟CPU資源,對該任務(wù)重新進行計算,直到計算完成為止;
第三,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區(qū)、跨云廠商調(diào)度所需GPU資源。
1、Amber任務(wù)能夠在云端有效運行;
2、fastone為用戶任務(wù)推薦最適配的GPU資源類型;
3、fastone平臺能夠在短時間內(nèi)跨區(qū)域,跨云廠商獲取足夠的GPU資源,滿足用戶短時間算力需求,大幅度縮短項目周期;
4、針對Amber18版本運行GPU任務(wù)失敗概率問題,fastone平臺可自動調(diào)度CPU資源重新計算,降低。
本次生信行業(yè)Cloud HPC實證系列Vol.6就到這里了。
在下一期的生信云實證中,我們聊MOE。
請保持關(guān)注哦!
- END -
我們有個【在線體驗版】
集成多種應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送200元體驗金,入股不虧~
2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取
你也許想了解具體的落地場景:
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
EDA云實證Vol.4 ,5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
關(guān)于云端高性能計算平臺:
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
The post 生信云實證Vol.6:155個GPU!多云場景下的Amber自由能計算 appeared first on 速石科技BLOG.]]>分子對接技術(shù),作為計算機輔助藥物設(shè)計(Computer Aided Drug Design,CADD)的重要方法,已廣泛應(yīng)用于藥物發(fā)現(xiàn)階段的早期虛擬篩選、藥物分子設(shè)計、先導(dǎo)化合物優(yōu)化、藥物潛在作用靶點發(fā)現(xiàn)、藥物-靶點相互作用機制、為重要的藥物代謝酶尋找特異性配體等。
目前,限于算力,或者高效靈活地調(diào)用大規(guī)模計算集群的能力,當前的虛擬篩選通常僅采樣百萬到千萬個分子,而事實上目前可用于藥物發(fā)現(xiàn)的有機分子已經(jīng)超過10的60次方。
在《15小時虛擬篩選10億分子,Nature+HMS驗證云端新藥研發(fā)未來》這篇文章里,哈佛大學(xué)醫(yī)學(xué)院的研究人員論證了:分子化合物的質(zhì)量會隨著虛擬篩選規(guī)模的擴大而提升。
如何在本地資源有限的情況下,提高虛擬篩選規(guī)模和質(zhì)量,把漫長的藥物研發(fā)周期縮短一點?
我們用實證給你一個答案。
與前兩次實證不同,本次生信實證有兩大特點:
1. 任務(wù)數(shù)量多,云上同一地區(qū)某種類型機型可能不足,因此會涉及到多區(qū)域資源調(diào)度;
2. 可根據(jù)用戶偏好匹配合適的資源調(diào)度策略,滿足用戶不同需求。
某大型藥企在本地建設(shè)有機房,計算資源總計為104核。
使用AutoDock Vina進行小分子對接:
當設(shè)定exhaustiveness=8時,篩選56643個原始分子共需90小時;
當設(shè)定exhaustiveness=1時,耗時需18小時。
(exhaustiveness參數(shù):用來控制對接的細致程度,影響計算時間)
當篩選范圍擴大到整個VS數(shù)據(jù)庫(2800萬個分子)時,不同參數(shù)條件下本地資源所需的運算時間在約2.6-5年不等。
研發(fā)負責人認為這么長的時間周期是無法接受的,其本地現(xiàn)有IT架構(gòu)和資源完全無法滿足研發(fā)需求。
1、AutoDock Vina任務(wù)能否在云端有效運行?
2、fastone平臺能否大幅度縮短任務(wù)運行時間?
3、fastone平臺能否有效控制任務(wù)運行成本?
4、針對AutoDock Vina任務(wù)小,數(shù)量大的特點,fastone平臺是否有針對性策略?
平臺:
fastone企業(yè)版產(chǎn)品
應(yīng)用:
AutoDock Vina
適用場景:
分子對接,研究配體(藥物分子)與其受體(已知的靶蛋白或活性位點)之間的詳細相互作用,預(yù)測其結(jié)合模式及親合力,還可以用來發(fā)現(xiàn)并優(yōu)化藥物先導(dǎo)物分子,進而實現(xiàn)基于結(jié)構(gòu)的藥物設(shè)計
云端硬件配置:
AutoDock Vina在運行時需要對接海量分子,對計算性能要求較高,因此平臺為用戶推薦選擇了匹配其應(yīng)用特點的計算優(yōu)化型實例機型。
技術(shù)架構(gòu)圖:
以下是兩個實證場景。
實證場景一:我們通過10000分子分別進行了AutoDock Vina的云端線性擴展性驗證及成本驗證;
實證場景二:基于不同用戶策略,我們幫用戶進行了2800萬量級的大規(guī)模分子對接。
1、時間優(yōu)先策略以速度為第一優(yōu)先級:資源選擇以O(shè)D按需實例為主,在滿足用戶時間要求的前提下盡可能通過搶占SPOT實例來優(yōu)化成本。
2、成本優(yōu)先策略以成本為第一優(yōu)先級:資源選擇以SPOT實例為主,并在滿足用戶成本要求的前提下使用OD按需實例來優(yōu)化時間效率。
SPOT:可被搶占實例,又稱競價實例。價格最低可達到按需實例價格的10%,相當于秒殺,手快有手慢無,價格可高可低波動大,隨時可能被搶占中斷,需要有一定的技術(shù)實力才能使用。
OD:On-Demand,按需實例。針對短期彈性需求,按小時計費,靈活精準,避免浪費,但價格比較高,通常為SPOT實例的3-10倍。
結(jié)論一:在云端調(diào)度不同核數(shù)的計算資源對接10000分子,驗證AutoDock Vina在云上具有線性擴展性,即當處理器數(shù)量增加一倍,運算時間也會縮短一半。
實證過程:
1、云端調(diào)度36核計算資源對接10000分子,采用時間優(yōu)先策略需耗時527分鐘;
2、云端調(diào)度80核計算資源對接10000分子,采用時間優(yōu)先策略需耗時314分鐘;
3、云端調(diào)度144核計算資源對接10000分子,采用時間優(yōu)先策略需耗時215分鐘;
4、云端調(diào)度288核計算資源對接10000分子,采用時間優(yōu)先策略需耗時98分鐘;
5、云端調(diào)度540核計算資源對接10000分子,采用時間優(yōu)先策略需耗時52分鐘;
6、云端調(diào)度1080核計算資源對接10000分子,采用時間優(yōu)先策略需耗時20分鐘。
結(jié)論二:在云端調(diào)度不同核數(shù)的計算資源對接10000分子,當用戶選擇成本優(yōu)先策略時,fastone平臺以SPOT實例為主要資源選擇,確保成本為第一優(yōu)先級。
比時間優(yōu)先策略,成本降幅最多可達67%-90%。
實證過程:
1、云端調(diào)度36核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費82元;
2、云端調(diào)度80核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費84元;
3、云端調(diào)度144核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費79元;
4、云端調(diào)度288核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費64元;
5、云端調(diào)度540核計算資源對接10000分子,采用成本優(yōu)先策略搶占SPOT實例,耗費58元;
6、云端調(diào)度1080核計算資源對接10000分子,采用成本優(yōu)先策略搶SPOT實例,耗費68元。
fastone基于用戶2800萬分子對接需求,提供時間優(yōu)先和成本優(yōu)先兩種策略供用戶選擇。
01
用戶以時間為第一優(yōu)先級
結(jié)論:
1、通過fastone平臺采用時間優(yōu)先策略調(diào)用10萬核計算優(yōu)化型實例對接2800萬個分子,耗時約15.23小時,運算效率提高2920倍;
2、fastone平臺根據(jù)用戶計算需求,自動化構(gòu)建并調(diào)度云上10萬核大規(guī)模算力集群,完成計算任務(wù);
3、時間優(yōu)先策略下,當任務(wù)數(shù)量達到一定規(guī)模時,云上同一地區(qū)某種類型機型可能不足,fastone平臺可跨區(qū)、跨類型自動為用戶調(diào)度云資源,以最快速度完成計算任務(wù);
4、fastone平臺自動幫用戶確定中斷可能性最低的SPOT池,保障任務(wù)順利高效完成,本次實證任務(wù)的中斷率為0.95%(通常<5%)。
云端部署手動模式 VS 自動模式之間的巨大差異可查看 EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
實證過程:
1、設(shè)定exhaustiveness=8,本地104核計算資源對接約2800萬個分子,經(jīng)估算需耗時約1853天;
2、設(shè)定exhaustiveness=8,云端調(diào)度10萬核計算資源對接約2800萬個分子,采用時間優(yōu)先策略需耗時約15.23小時(含配置,安裝,調(diào)度等時間)。
計算資源越多,運算時間越短。
在滿足用戶時間要求的前提下,可通過盡可能搶占SPOT實例來幫助用戶優(yōu)化成本。
當所需的計算資源達到十萬核這個數(shù)量級以后,單個區(qū)域內(nèi)我們的目標類型資源可能會瞬間告罄,造成任務(wù)排隊,從而大大拖慢運算時間。
我們需要通過fastone平臺的Auto-Scale功能自動調(diào)度本區(qū)域及其他區(qū)域的目標類型或相似類型SPOT實例資源,以最快速地完成任務(wù)。
簡單說,就是優(yōu)先搶低價的SPOT實例,搶完同類型的再搶其他類型的,搶完同區(qū)域的再搶其他區(qū)域的。
這只是Auto-Scale功能的一部分。
fastone的Auto-Scale功能可以自動監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動態(tài)按需地開啟所需算力資源,在提升效率的同時有效降低成本。可以讓用戶根據(jù)自身需求,設(shè)置調(diào)度集群規(guī)模上下限,且所有操作都是自動化完成,無需用戶干預(yù)。
02
用戶以成本為第一優(yōu)先級
使用AutoDock Vina進行分子對接的一大特征是任務(wù)數(shù)量龐大而單個任務(wù)計算時間短,單個分子對接的時間通常在幾分鐘以內(nèi)(與參數(shù)設(shè)置有關(guān))。
這一特征天然匹配云端的SPOT實例。
云端SPOT實例有四大特點:
1、 便宜是真便宜。
2、 不是人人都能用好。
3、 不是你想要啥就有,不是你想用的時候就能用。
4、 或遲或早,最終一定會被搶走。
OD按需實例價格通常為SPOT實例的3-10倍。
可參考:《云資源中的低成本戰(zhàn)斗機——競價實例,AWS、阿里云等六家云廠商完全用戶使用指南》
當便宜且隨時可能被搶占中斷的SPOT實例遇到迷你卻海量的分子對接任務(wù),簡直就是天造地設(shè)的一對。
1、常規(guī)分子對接任務(wù)幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態(tài);
2、fastone平臺具備自動重試功能,一個任務(wù)被中斷可以自動重新提交,任務(wù)之間互相不影響,重新提交單個任務(wù)影響很小。
fastone平臺會按以下順序依次進行自動化調(diào)度:
1、同一區(qū)域目標類型的SPOT實例;
2、同一區(qū)域其他類型的SPOT實例;
3、其他區(qū)域目標類型的SPOT實例;
4、其他區(qū)域其他類型的SPOT實例;
5、同一區(qū)域目標類型的OD實例;
6、同一區(qū)域其他類型的OD實例;
7、其他區(qū)域目標類型的OD實例;
8、其他區(qū)域其他類型的OD實例。
最后我們回顧一下實證目標:
1、AutoDock Vina任務(wù)能在云端有效運行;
2、fastone平臺能夠大幅度縮短任務(wù)運行時間;
3、fastone平臺能夠有效控制任務(wù)運行成本;
4、fastone平臺的Auto-Scale功能可完美匹配AutoDock Vina任務(wù)小,數(shù)量大的特點;
5、fastone平臺能根據(jù)用戶不同需求,為用戶提供不同的自動化調(diào)度策略。
本次生信行業(yè)Cloud HPC實證系列Vol.3就到這里。
在下一期的實證中,我們將為大家?guī)鞟mber上云實證,這次涉及到了云端GPU資源的使用。
未來我們還會帶給大家更多領(lǐng)域的用云“真香”實證,請保持關(guān)注哦!
- END -
2分鐘自動開通,即刻獲得TOP500超級算力
點擊下圖立即體驗
2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取
你也許想了解具體的落地場景:
15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發(fā)未來
CAE云實證Vol.2:從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關(guān)于云端高性能計算平臺:
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
關(guān)于速石
速石科技致力于為 生命科學(xué)、 半導(dǎo)體、汽車/智能制造、高校科研、人工智能、金融科技 等領(lǐng)域的企業(yè)提供定制化的上云解決方案 。