一種新藥從開發(fā)到獲得批準(zhǔn)平均成本為20億-30億美元,至少耗時(shí)10年。
這句話,藥物研發(fā)領(lǐng)域的人大概都聽累了。
為什么這么難?
1. 濕實(shí)驗(yàn)昂貴而費(fèi)時(shí);
2. 初始化合物命中率低;
3. 臨床前階段的高損耗率。
今年3月,哈佛大學(xué)醫(yī)學(xué)院(HMS)的研究人員在《Nature》雜志發(fā)表了論文《An open-source drug discovery platform enables ultra-large virtual screens》,描述了一個(gè)叫做VirtualFlow的開源藥物發(fā)現(xiàn)平臺(tái),能通過云端整合海量的CPU對(duì)超大規(guī)模化合物庫進(jìn)行基于結(jié)構(gòu)的虛擬篩選,提高藥物發(fā)現(xiàn)效率。
論文作者Christoph Gorgulla稱,在一個(gè)CPU上篩選10億種化合物,每個(gè)配體的平均對(duì)接時(shí)間為15秒,全部篩完大概需要475年,而HMS利用VirtualFlow的平臺(tái),調(diào)用160000個(gè)CPU對(duì)接10億個(gè)分子僅耗時(shí)約15小時(shí),10000個(gè)CPU則需要兩周。

聽起來非常吸引人。
抱著給某CRO公司虛擬篩選的7.8億個(gè)分子,我們心里有點(diǎn)高興。
當(dāng)時(shí),我們調(diào)用了云上幾萬個(gè)core來篩選,計(jì)算時(shí)長也僅花費(fèi)了3-13個(gè)小時(shí)(每個(gè)Core上所需時(shí)間不一樣)。
限于算力,或者高效靈活地調(diào)用大規(guī)模計(jì)算集群的能力,當(dāng)前的虛擬篩選通常僅采樣百萬到千萬個(gè)分子,而事實(shí)上目前可用于藥物發(fā)現(xiàn)的有機(jī)分子已經(jīng)超過10的60次方。
注:濕實(shí)驗(yàn)室(Wet Lab)主要靠的是做實(shí)驗(yàn),干實(shí)驗(yàn)室(Dry Lab)主要是計(jì)算機(jī)模擬和計(jì)算。
HMS的論文主要論證了兩點(diǎn):
1、虛擬篩選的規(guī)模越大,篩選的化合物越多,真陽性率越高;
2、線性擴(kuò)展能力+云平臺(tái)=無限可能。
超大規(guī)模篩選可提高真陽性率
論文推導(dǎo)了真陽性率與所篩選化合物數(shù)量的的函數(shù)關(guān)系的概率模型,證明:化合物的最高打分隨著規(guī)模增加而提高。
作者分別從10萬、100萬、1000萬、1億、10億個(gè)化合物中進(jìn)行了5次篩選,挑選了得分最高的前50個(gè)化合物進(jìn)行對(duì)比,從圖中可以很清楚地看到篩選的規(guī)模越大,得分越高(位置越靠上)。

虛擬篩選規(guī)模可以通過兩種不同的方式提高初始命中的質(zhì)量:
1. 通過識(shí)別具有更緊密結(jié)合親和力的化合物,從而降低劑量,減少脫靶效應(yīng);
2. 通過發(fā)現(xiàn)具有更好的藥代動(dòng)力學(xué)和/或更少固有細(xì)胞毒性的化合物。
為了驗(yàn)證大規(guī)模篩選的準(zhǔn)確性,研究人員選擇了腫瘤研究領(lǐng)域熱門的KEAP1蛋白作為虛擬篩選靶點(diǎn),對(duì)含有13億配體的數(shù)據(jù)庫進(jìn)行了虛擬篩選。通過兩個(gè)階段的篩選,HMS選出了約1萬個(gè)打分優(yōu)秀的分子。
隨后,研究人員從成藥性、配體效率、化學(xué)多樣性以及獲取難度等方面在這約1萬個(gè)候選分子中挑選了590個(gè)苗頭化合物進(jìn)行活性驗(yàn)證,最終給出了兩個(gè)活性達(dá)到毫微摩爾級(jí)的代表性化合物iKEAP 1和iKEAP 2的多種實(shí)驗(yàn)結(jié)果,驗(yàn)證了VirtualFlow在對(duì)接10億以上分子量時(shí)的高效性。
線性擴(kuò)展+云平臺(tái)=無限可能
可線性擴(kuò)展的意思是說,處理器數(shù)量增加一倍,篩選能力也會(huì)增加一倍。
為了論證這一點(diǎn),HMS在本地和云端均進(jìn)行了測(cè)試:
本地計(jì)算集群LC1由18,000個(gè)CPU(分別為Intel Xeon和AMD Opteron處理器的不同型號(hào))異構(gòu)組成;本地集群LC2上則有30,000個(gè)英特爾Xeon8268處理器。
云端則選擇了GCP和AWS,最多調(diào)用了160,000萬個(gè)CPU(作者并未闡述在云端使用的CPU型號(hào))。實(shí)驗(yàn)表明VirtualFlow在多種情況下均體現(xiàn)了良好的線性可擴(kuò)展性,具體可看下圖(圖中并未描述平臺(tái)在AWS上的表現(xiàn))。

而這種近乎無限的線性擴(kuò)展性意味著什么?
即便在今后的實(shí)際應(yīng)用中并行數(shù)百萬個(gè)內(nèi)核,VirtualFlow的性能效率也不會(huì)受到其他因素的拖累。如果你擁有一個(gè)300核的計(jì)算機(jī)集群,你可以在六周內(nèi)篩選1億個(gè)化合物,而如果你有1,000核,那么兩個(gè)星期內(nèi)就可以完成篩選。
這個(gè)開源的VirtualFlow平臺(tái)到底是個(gè)啥?
這個(gè)項(xiàng)目由哈佛大學(xué)醫(yī)學(xué)院牽頭,整體仍處于較新的階段。VirtualFlow平臺(tái)旨在利用超級(jí)計(jì)算能力并行篩選潛在的有機(jī)化合物結(jié)構(gòu),以尋找有希望的新藥物分子。

VirtualFlow平臺(tái)主要分為VFLP(配體制備)和VFVS(虛擬篩選)兩個(gè)模塊,VFLP負(fù)責(zé)分析目標(biāo)的化學(xué)空間構(gòu)型(圖中上半部分的藍(lán)色箭頭),再由VFVS根據(jù)事先預(yù)設(shè)好的靶點(diǎn)經(jīng)過一次或多次虛擬篩選之后,最終獲得先導(dǎo)化合物。
目前已知的平臺(tái)特性包括:
1. 用Bash編寫,完全開源、免費(fèi);
2. 目前支持的應(yīng)用包括:AutoDock Vina、QuickVina 2、Smina、AutoDockFR、QuickVina-W、VinaXB和Vina-Carb;
3. 暫時(shí)不支持GPU;
4. 支持AWS、GCP、Azure在內(nèi)的主流云計(jì)算平臺(tái)。
這很棒。
但開源平臺(tái),不是你想擁抱就能擁抱。
VirtualFlow擁有較高的使用門檻,你可能需要懂點(diǎn)代碼,懂點(diǎn)調(diào)度器,再懂點(diǎn)集群,還要熟悉各個(gè)云平臺(tái)等等。

藥物研發(fā)向來是皇冠上的明珠,HMS這篇論文驗(yàn)證了應(yīng)用云平臺(tái)的確能帶來新藥研發(fā)效率的提升,時(shí)間和金錢成本上的大量縮減。
中國人自己的創(chuàng)新藥+云,我們可以期待一下。
相關(guān)閱讀:
>> 【2020新版】六家云廠商價(jià)格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長率超21%
>> 上榜啦~花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
速石科技致力于為 生命科學(xué)、 半導(dǎo)體、汽車/智能制造、高校科研、人工智能、互聯(lián)網(wǎng)金融 等領(lǐng)域的企業(yè)提供定制化的上云解決方案 。