
新藥研發平臺37問
一、云平臺支持哪些CADD/AIDD場景?
二、云平臺支持哪些應用?支持自定義工作流嗎?
三、對CADD/AIDD研發部門來說,有哪些好處?
四、對IT部門來說,有哪些好處?
一、云平臺支持哪些CADD/AIDD場景?
1、如何支持AIDD場景?
在AIDD方面,我們支持AlphaFold、RoseTTAFold等常用AI框架所需資料和快速環境的搭建,并支持更多組件按需集成。

2、平臺支持分子對接嗎?支持基因測序嗎?還支持哪些CADD場景?平臺可支持CADD中典型場景分子動力學模擬、分子對接、虛擬篩選等,并支持單細胞測序、全基因測序場景。
3、蛋白與蛋白docking可以在平臺中運行嗎?DOCK發展到現在整合多步驟的HADDOCK、ClusPro、SwamDock、RosettaDock等等,該領域的算法不斷地升級迭代。平臺也能夠很方便地集成相關軟件,提供驗證環境。
4、想要通過平臺篩選一些特定結構的分子,是否可以優化化合物庫?如果您能夠提供確切信息,可以一同討論優化。同時,我們也準備了很多開源的分子庫供大家使用,現在已支持Zinc、Drugbank、Maybridge、Enamine等。
5、目前平臺中是否有自建的化合物數據庫?
CADD研究過程中,不論是靶點的發現和優化、還是先導化合物的發現和優化,開源的分子庫是必不可少的基礎數據。目前開源的分子庫數據分散各地,下載緩慢,格式不統一,更新頻率不等,導致無法統一使用和管理,數據資產作用發揮有限。所以我們構建了fastone自有的分子庫,并做好了進一步的數據準備。
例如:
1、數據預處理,合并或格式轉換;
2、數據后處理,去重或力場優化。
6、你們可以協助做小分子設計嗎?
我們不直接提供具體的小分子設計,我們負責搭建IT和信息平臺,協助您完成相關的研發工作。
7、基因數據量很大,平臺有什么好的解決辦法?
對于GB級別的增量數據,我們支持以混合云組網專線的方式優化上傳線路。傳輸通道使用DM工具,支持全自動化數據上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數據。
對于PB級別的存量數據,建議通過離線方式快速傳輸。
8、最終結果能否在線可視化查看?
平臺支持圖片、表格、HTML等多種形式展現。

二、云平臺支持哪些應用?支持自定義工作流嗎?
9、云平臺能覆蓋到我常用的軟件嗎?我們支持常用的生物/化學計算類應用,包括:生物化學與分子生物學/化學工程/生物化學/應用化學/生物工程/藥物化學/分析化學/物理化學/高分子化學與物理。
10、具體來說,支持哪些生物/化學計算類應用/工具?我們支持幾乎所有的生物/化學計算類應用/工具,包括:AutoDockVina、Amber、FastQC、DeltaVina、GATK、Gromacs、Schr?dinger、NetMHC、Rosetta、BCFtools等。
更多支持應用列表,歡迎文末掃碼添加小F獲取。
11、你們支持Alphafold嗎?
我們可以快速提供Alphafold等常用環境,方便用戶快速進行后續研究。
12、我們用的軟件是自己編譯的,你們平臺支持嗎?
支持。我們提供的集群環境鏡像已包含常見應用工具運行所需的依賴庫,用戶也可以自行安裝配置。
13、對于一些商業軟件例如Schr?dinger,你們提供License嗎?
商業軟件的License文件需要客戶自行提供,fastone提供License Server進行統一管理。
14、分子對接流程能不能自定義?上云之后每次都要重新弄一遍嗎?
很多時候,現成的應用往往無法滿足用戶的需求,需要根據自己的模型和研究目標,自定義設置一套獨有的工作流程。
特別是新藥研發所涉及的應用上,可以說幾乎沒有一模一樣的工作流。 我們已經實現了多款應用(如Vina、Amber)的自定義工作流,可以根據用戶的實際使用場景(包括入參文件、結果文件、流程使用方式、步驟以及相關說明等)實現自定義模板和腳本自動化。用戶也可以提供腳本,由我們協助完成并行化改造。
15、你們是否提供固定的工作流模板?
提供。
用戶在進行了一次或多次復雜的設定之后,能把這些設定保存成固定模板,不用重復手動去一步步重新設置。一次制作,反復使用,省時省力,還不用擔心中間出錯。而且,這套自定義的設置是可以跨應用存在的,不一定局限在一個應用范圍內。自己重復用,共享給團隊的其他人用,都可以。

16、你們是怎么幫助我們做工作流優化的?
我們有通用的框架。我們也有對應的CADD專家,可理解您的業務需求,快速設計出合理的相關流程。
17、你們的云平臺如何與CADD應用相結合適配?
我們提供兩種模式進行適配:任務模式和集群模式。
集群模式為用戶提供了一個靈活的環境,用戶可在集群模式下進行一系列的調整和優化,自由度非常高。
如果您習慣使用圖形化界面操作,我們也提供圖形桌面,您可通過Web瀏覽器啟動集群,跳轉到虛擬桌面,并可在該桌面直接操作應用進行相應設置以開啟云端任務。當用戶在集群模式下跑通了之后,可以選擇將整個流程固化下來,方便更多研發人員使用。此時我們可以幫助用戶將此套流程轉換成固定的任務模式,讓更多的人可以使用這個成熟的框架,從而加速后續的整體研發效率。
三、對AIDD/CADD研發部門來說,有哪些好處?
18、你們的平臺容易操作嗎?用起來會不會很麻煩?
我們為AIDD/CADD研發人員提供了一整套即開即用的新藥研發環境,從登錄桌面、打開應用、配置、提交任務、自動上云開機運行任務并自動關機、查看結果進行調試……用戶所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用鼠標簡單點選即可完成。、

19、有些應用需要先跑完主任務再跑其他任務,上云可以智能化跑任務嗎?
有些應用在運算時存在依從機制,每若干個任務中包含1個主任務,只有當主任務運行結束后,其他任務才能開始并行運算。
由于任務有先后,所以需要先跑主任務,在每個主任務完成之后自動調度資源并行運算其他任務。
而不同任務完成時間可能不同,對資源的需求量可能時高時低有波動,最終結束關機時間也不同。
我們使用Slurm調度器按順序調度任務排隊,Auto-Scale功能可自動監控任務和資源需求,動態按需地開啟與關閉所需資源。詳細的自動化過程可參考27問。
20、做分子對接,動不動就是幾百萬上千萬個分子,太貴了,有節約成本的方案嗎?
分子對接規模如果巨大,有什么好的解決辦法能加快這個過程?怎么做到的?分子對接的一大特征是任務數量龐大而單個任務計算時間短,單個分子對接的時間通常在幾分鐘以內(與參數設置有關)。
這一特征天然匹配云端的SPOT實例。
當便宜且隨時可能被搶占中斷的SPOT實例遇到迷你卻海量的分子對接任務,簡直就是天造地設的一對。
1、常規分子對接任務幾分鐘即可算完,特別適合SPOT這種分分鐘可能被搶走的狀態;
2、fastone平臺具備自動重試功能,一個任務被中斷可以自動重新提交,任務之間互相不影響,重新提交單個任務影響很小。詳見《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》
21、任務量比較大,想提前預估一下費用再做決策,有沒有什么好辦法?
我們平臺預設了智能預測功能,以MOE為例。
用戶在fastone平臺的圖形化操作界面運算MOE任務,完成以下步驟:
1、用戶上傳數據文件(平臺自動解析文件,判斷其中包含的分子數量)
2、用戶輸入期望的運算時間(平臺推薦用戶適配機型或用戶自行選擇機型)
3、系統得出預測成本

項目負責人能夠非常方便地使用該功能預估項目費用,完成項目規劃和申請。
22、我要跑TPU,你們支持嗎?
支持。
用戶可以通過我們平臺獲取到TPU資源。
23、有時會遇到CADD模擬出的結果與實際結果有一定出入,這是為什么?
CADD本身是模擬的結果,通過不斷的迭代,力場的優化,會不斷接近實際情況。CADD和實際的實驗數據相結合,反復設計和迭代,可以達到很好的效果。
24、有些任務需要使用大量的GPU資源,你們有嗎?
當單個云廠商的GPU資源難以滿足需求時,我們會根據用戶任務需要和特性,跨多家公有云廠商,智能自動化調度云端GPU異構資源,保證用戶對GPU的需求得到滿足。
25、GPU資源很貴,有沒有節約成本的方案?
GPU資源在不同云廠商之間有著顯著的差異,而且往往資源多的售價高,便宜的資源少,同時兼顧成本和效率是必須要考慮的問題。以各大公有云廠商在北京地區的GPU實例(V100)按需價格為例,最高價格超過最低價2倍。

我們平臺可綜合考量用戶對完成任務所需時間和成本的具體要求,在多個云廠商的資源之間選擇最適配的組合方案,為用戶跨地區、跨云廠商調度所需資源。
26、用Amber跑任務,用GPU跑非常快,但是有時候會跑失敗,用CPU雖然穩定但是慢,你們怎么解決?
這是Amber18版本的固有問題,在使用GPU時計算時有10-15%概率失敗,需要及時調度CPU資源重新計算。我們平臺支持優先使用GPU計算,當任務失敗時,自動調用CPU重新計算。
該問題已在Amber20中修復。

27、有時大半夜任務跑失敗了,第二天早上才發現,很浪費時間是否有自動重復提交任務的功能?
放著機器通宵跑任務時總會幻想:第二天一早,任務已經跑完了,完美。
現實是:任務才跑了10%。任務出錯,進度條卡住,可能會有兩種情形:
第一種:每個任務之間獨立,彼此沒有關聯
一般任務數量越多失敗的任務數量大概率也會變多。
第二種:每個任務間有明確的先后處理順序必須從A任務按序跑到Z。
假如到F任務就失敗了,整個任務就此停滯涼涼。

自動檢查任務狀態并對失敗任務及時重復提交的功能,就是這種場景的克星,尤其是第二種,不然等待著你的,大概就是通宵,同時睜大你的雙眼了。
我們的任務監控告警功能,還會時刻監控任務狀態,通過IM及時通知用戶,任務出現異常或已經完成。
詳情可掃碼:王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
四、對IT部門來說,有哪些好處?
28、現在公司里才幾臺機器,天天維護頭就很大了,云上這么多機器還不得把自己搞禿了?
云上的運行環境都是自動化配置的,不需要人工干預,用戶還可以通過平臺進行統一管理和監控,方便易操作。
舉個例子,我們的Auto-Scale功能可以自動監控用戶提交的任務數量和資源的需求,動態按需地開啟和關閉所需算力資源,在不夠的時候,還能根據不同的用戶策略,自動化調度本區域及其他區域的目標類型或相似類型實例資源。所有操作都是自動化完成,無需用戶干預。
下圖就是開啟Auto-Scale功能后,用戶某項目一周之內所調用云端計算資源的動態情況。
其中橙色曲線為OD實例的使用狀況,紅色曲線為SPOT的使用狀況。

Auto-Scale功能可以根據任務運算情況動態開啟云端資源,并在波峰過去后自動關閉,讓資源的使用隨著用戶的需求自動擴張及縮小,最大程度匹配任務需求。
29、你們是什么存儲策略?費用呢?冷存儲和熱存儲的費用是不一樣的,我們會根據用戶的情況提供個性化的解決方案。
30、數據備份的頻率如何?最高可以達到多少?現有策略怎樣?默認每周六進行數據備份,也可以根據客戶需求按天或按小時備份。
31、使用平臺的工作人員比較多,能否對每個人設置使用資源的上限?
fastone平臺的權限和角色管理功能,支持管理員角色對每一個用戶進行相關權限設定,包括預算使用上限和CPU核數使用上限,從而在全局角度管控項目的資源消耗。該功能與智能預測配合使用,能夠從多個層面對預算和資源進行全方位規劃。

32、公司里還有些機器能用,你們支持混合云模式嗎?
支持。
可以將本地機器做成集群,也可以基于本地機器搭建混合云平臺。我們支持本地資源不足的時候,自動溢出到云上。
33、你們怎么實現混合云?
云資源和本地之間通過安全的數據通道連接,所有資源在fastone平臺統一管理,有統一視圖,并按需智能調度,不改變用戶的使用習慣。
34、公司里已經有機器了,再增加一套云環境,IT管理上會不會變麻煩?通過我們可以在不增加負擔的情況下對接多云,減少IT管理壓力。我們的自動化管理平臺很容易上手,對提升研發效率和資源利用率都有很大幫助。
35、我們公司有海外研發部門,用你們平臺方便嗎?
我們的平臺支持全球部署,我們會全球的優化組網,統一用戶管理,數據管理,優化的遠程接入方式,保持一致的用戶體驗。

36、云上云下的安全如何保障?
安全是一個立體的概念,包括系統安全、應用安全、流程安全、數據安全等很多方面。
云的基礎架構和傳統IT架構在安全方面并沒有本質上的區別,依然是利用計算節點和存儲資源。很多人覺得這兩者之間存在差異,我們認為這取決于個人的認知。本地的安全措施在云上都可以實現,同時云廠商本身還提供更強大的安全保障。
37、數據安全如何實現?
數據全部通過安全協議傳輸,并支持RBAC的數據訪問認證鑒權。同時,我們還支持數據加密存儲,算法可自定義。
- END -
我們有個新藥研發云平臺
集成多種生命科學領域應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~

更多電子書歡迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
解讀Hyperion年度報告:脫離場景談用量就是耍流氓
這一屆科研計算人趕DDL紅寶書:學生篇
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
AI太笨了……暫時
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
