一種新藥從開發到獲得批準平均成本為20億-30億美元,至少耗時10年。
這句話,藥物研發領域的人大概都聽累了。
為什么這么難?
1. 濕實驗昂貴而費時;
2. 初始化合物命中率低;
3. 臨床前階段的高損耗率。
今年3月,哈佛大學醫學院(HMS)的研究人員在《Nature》雜志發表了論文《An open-source drug discovery platform enables ultra-large virtual screens》,描述了一個叫做VirtualFlow的開源藥物發現平臺,能通過云端整合海量的CPU對超大規模化合物庫進行基于結構的虛擬篩選,提高藥物發現效率。
論文作者Christoph Gorgulla稱,在一個CPU上篩選10億種化合物,每個配體的平均對接時間為15秒,全部篩完大概需要475年,而HMS利用VirtualFlow的平臺,調用160000個CPU對接10億個分子僅耗時約15小時,10000個CPU則需要兩周。

聽起來非常吸引人。
抱著給某CRO公司虛擬篩選的7.8億個分子,我們心里有點高興。
當時,我們調用了云上幾萬個core來篩選,計算時長也僅花費了3-13個小時(每個Core上所需時間不一樣)。
限于算力,或者高效靈活地調用大規模計算集群的能力,當前的虛擬篩選通常僅采樣百萬到千萬個分子,而事實上目前可用于藥物發現的有機分子已經超過10的60次方。
注:濕實驗室(Wet Lab)主要靠的是做實驗,干實驗室(Dry Lab)主要是計算機模擬和計算。
HMS的論文主要論證了兩點:
1、虛擬篩選的規模越大,篩選的化合物越多,真陽性率越高;
2、線性擴展能力+云平臺=無限可能。
超大規模篩選可提高真陽性率
論文推導了真陽性率與所篩選化合物數量的的函數關系的概率模型,證明:化合物的最高打分隨著規模增加而提高。
作者分別從10萬、100萬、1000萬、1億、10億個化合物中進行了5次篩選,挑選了得分最高的前50個化合物進行對比,從圖中可以很清楚地看到篩選的規模越大,得分越高(位置越靠上)。

虛擬篩選規模可以通過兩種不同的方式提高初始命中的質量:
1. 通過識別具有更緊密結合親和力的化合物,從而降低劑量,減少脫靶效應;
2. 通過發現具有更好的藥代動力學和/或更少固有細胞毒性的化合物。
為了驗證大規模篩選的準確性,研究人員選擇了腫瘤研究領域熱門的KEAP1蛋白作為虛擬篩選靶點,對含有13億配體的數據庫進行了虛擬篩選。通過兩個階段的篩選,HMS選出了約1萬個打分優秀的分子。
隨后,研究人員從成藥性、配體效率、化學多樣性以及獲取難度等方面在這約1萬個候選分子中挑選了590個苗頭化合物進行活性驗證,最終給出了兩個活性達到毫微摩爾級的代表性化合物iKEAP 1和iKEAP 2的多種實驗結果,驗證了VirtualFlow在對接10億以上分子量時的高效性。
線性擴展+云平臺=無限可能
可線性擴展的意思是說,處理器數量增加一倍,篩選能力也會增加一倍。
為了論證這一點,HMS在本地和云端均進行了測試:
本地計算集群LC1由18,000個CPU(分別為Intel Xeon和AMD Opteron處理器的不同型號)異構組成;本地集群LC2上則有30,000個英特爾Xeon8268處理器。
云端則選擇了GCP和AWS,最多調用了160,000萬個CPU(作者并未闡述在云端使用的CPU型號)。實驗表明VirtualFlow在多種情況下均體現了良好的線性可擴展性,具體可看下圖(圖中并未描述平臺在AWS上的表現)。

而這種近乎無限的線性擴展性意味著什么?
即便在今后的實際應用中并行數百萬個內核,VirtualFlow的性能效率也不會受到其他因素的拖累。如果你擁有一個300核的計算機集群,你可以在六周內篩選1億個化合物,而如果你有1,000核,那么兩個星期內就可以完成篩選。
這個開源的VirtualFlow平臺到底是個啥?
這個項目由哈佛大學醫學院牽頭,整體仍處于較新的階段。VirtualFlow平臺旨在利用超級計算能力并行篩選潛在的有機化合物結構,以尋找有希望的新藥物分子。

VirtualFlow平臺主要分為VFLP(配體制備)和VFVS(虛擬篩選)兩個模塊,VFLP負責分析目標的化學空間構型(圖中上半部分的藍色箭頭),再由VFVS根據事先預設好的靶點經過一次或多次虛擬篩選之后,最終獲得先導化合物。
目前已知的平臺特性包括:
1. 用Bash編寫,完全開源、免費;
2. 目前支持的應用包括:AutoDock Vina、QuickVina 2、Smina、AutoDockFR、QuickVina-W、VinaXB和Vina-Carb;
3. 暫時不支持GPU;
4. 支持AWS、GCP、Azure在內的主流云計算平臺。
這很棒。
但開源平臺,不是你想擁抱就能擁抱。
VirtualFlow擁有較高的使用門檻,你可能需要懂點代碼,懂點調度器,再懂點集群,還要熟悉各個云平臺等等。

藥物研發向來是皇冠上的明珠,HMS這篇論文驗證了應用云平臺的確能帶來新藥研發效率的提升,時間和金錢成本上的大量縮減。
中國人自己的創新藥+云,我們可以期待一下。
相關閱讀:
>> 【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%
>> 上榜啦~花費4小時5500美元,速石科技躋身全球超算TOP500
速石科技致力于為 生命科學、 半導體、汽車/智能制造、高校科研、人工智能、互聯網金融 等領域的企業提供定制化的上云解決方案 。