Novartis 諾華制藥一直是速石極為關注的一家公司。在我們心目中,Novartis在IT技術與制藥業技術大融合方面的革新,一直是業界排頭兵,堪稱楷模。
5年前,Novartis與AWS發布的一個公開案例就深深震撼到了我們:
“We completed the equivalent of 39 years of computational chemistry in just under 9 hours.”
- Steve Litster, Ph.D., Global Head of Scientific Computing
不到9小時,我們完成了相當于39年的化學計算。
5年前,在很多人腦海里,“Cloud Computing云計算”這個概念才剛剛萌芽,而作為擁有百年歷史的制藥界巨頭,已經開始運用云的能力來賦能其核心藥物研發過程。
讓我們回顧一下這個案例:
Novartis的NovatisInstitutes for Biomedical Research’s (NIBR) 部門成立的初衷就是為了針對特定疾病提供一整套治療和預防藥物,從而大幅度提升生命的質量。
截至2013年,NIBR在全球擁有6000名科學家,同時進行著130個藥物研發項目,主要聚焦于不同疾病所公有的分子路徑研究。
傳統上看,一個創新藥物從開始研發到最終面世,往往需要10年-15年的時間,其間消耗的成本在20億美元以上,同時失敗的風險巨大。為了應對這一挑戰,NIBR決定通過新一代的HPC系統來大幅度縮短研發周期。
2013年,Novartis啟動了一個針對某一常見癌癥的化合物篩選的項目,需要在一周時間內完成千萬個化合物的篩選工作。根據簡單的估算,如果依靠Novartis自有的IT環境,他們可能需要50000個CPU核,總體成本可能接近4000萬美元。
幸運的是,公有云服務的出現,讓這樣的問題迎刃而解。
Novartis和AWS以及Cycle Computing(后來被微軟收購)一起合作,為了這個項目,同時運行了10600個SPOT Instance,共計87000個CPU核,從而在短短9個小時以內完成了這項歷史性的壯舉,而其硬件的成本,僅僅是4000多美元!
5年的時間如白駒過隙,2018年底的AWS Re:Invent 大會上,Novartis又出現在講臺上。
這一次,Novartis給出了他們對HPC以及新興IT技術的進一步思考——“關于混合架構環境下的HPC系統的十大策略”:

Portability .
設計所有新的業務流程以及后臺支撐的基礎架構,而這些應該與物理站點解耦。
速石短評
軟硬件平臺解耦是實現新一代混合HPC架構的必要條件,也是避免Vendor Lock in的合理措施,雖然會有一定的工作量,但所獲得的靈活性絕對絕對對得起前期的付出。
Hybrid .
同時使用自有的數據中心以及云服務來滿足HPC計算的需求。這兩者之間的選擇取決于預設的系統運行原則(time-to-value,成本,能力以及物理限制等等)。
速石短評
混合云是HPC的大勢所趨,on-premise平臺和Cloud各有優勢,缺一不可。而HPC workload的分配應該是策略驅動(Policy-driven) 和高度自治化(Autonomous)的,成本,性能,安全,物理距離都是可以考量的因素。
雖然不知道Novartis已經能達到什么樣的程度,但相信這一大方向是不會錯的。
Multi-cloud with preferred vendor bias .
如果需要使用云資源,缺省情況下使用首選的云服務供應商。如果其它的云供應商在某些方面有明顯優勢,則可以同時采用多家云供應商。
速石短評
Multi-cloud會給HPC算力的調配帶來更多的靈活度和更大的規模,從而最終用戶可以獲得更好的成本結構和性價比。
當然作為Novartis這樣體量的客戶,一定會有一家首選的戰略合作云供應商,也可能會因此獲得更好的價格和支持。而對于小一些的客戶,preferred vendor bias就未必是必要的了。
Two centers .
將自有的HPC資源環境分成兩個集群:一個在美國,一個在歐洲。
速石短評
Novartis家大業大,自家的IT環境可以輕松的做到多站點。但對于一般用戶而言,這一點實現起來不易。
但其思路值得借鑒,那就是高可用性和冗余,同時計算資源更加貼近最終使用者。正在興起的“邊緣計算(Edge Computing)”也許是可以利用的工具。
Lease .
將軟硬件采購模式調整為以租賃為核心,從而能更有效的跟蹤和適應計算需求以及IT技術的快速變化。
速石短評
“租”在很多時候會比“買”要好,這一論斷對于企業IT環境而言,越來越不言而喻。
在中國,個人和公司對“資產”的追求有著一種偏執,而這其實會大大降低自身的效率和靈活度,也是對社會資源的一種浪費。大家可以再仔細想想這條策略的本質。
Environment isolation .
HPC基礎架構應該獨立于一般的IT環境,并且應該為科研需求單獨優化。
速石短評
國內絕大部分客戶,研發使用的HPC環境是和企業其他IT應用在同一基礎架構下運行的,這本身可以提高資源利用率,但也使得HPC環境的隔離和調優變得很困難。一個切實可行的解決方法是對HPC的應用和功能進行封裝,實現軟件定義的HPC架構。
Stage data .
HPC環境應該只處理中間數據(Staged Data)。所有數據應該被復制進HPC系統,計算完成,再復制出去。數據復制傳輸的工具應該盡可能的好用。
速石短評
這一策略,沒有多年的HPC運營經驗,是提不出來的。為了讓HPC環境變得高效而易于管理,數據生命周期管理的工作應該由其它獨立的平臺來完成。
Shared cost model.
HPC基礎架構的成本應該由HPC團隊來承擔,而最終用戶有權根據自身的業務需要來負擔動態成本。
速石短評
好羨慕Novartis,能提出這樣“烏托邦”的思路。不過進一步細想,這個策略在一般公司落地也不無可能。
針對國內的商業環境和公司組織架構特點,我們建議在HPC項目上,使用部門應該承擔更多的角色。因為HPC和業務及研發的關聯是如此緊密,完全可以被視為研發的生產資料,而非IT平臺。使用部門提出具體需求,負責HPC整個項目的執行,并承擔預算,IT部門協助提供技術支持,應該是一個更現實且更高效的實現路徑。
Enable and empower users .
建立支持服務,以更好的服務于最終用戶,使不同技能級別的用戶都可以高效地以自服務方式使用HPC服務。
速石短評
自服務Self-Service是HPC在功能方面演進的思路,一套好的HPC平臺,在用戶體驗層面,應該切實降低業務用戶的使用門檻和學習曲線,應該盡量的不改變業務用戶日常操作的方式。
Planned recurring reviews .
定期回顧這些策略的關鍵元素,以決定是否需要調整。
速石短評
不得不佩服老外的思維方式,永遠是具備了嚴密的邏輯性,任何的方法論,都能形成一個自我迭代更新的閉環。當然,業務需求和技術供給,永遠是動態變化的,不排除未來出現新的技術或應用模式(比如,邊緣計算),因此定期回顧是應有之義。
看得出,在過去的5年里,Novartis在HPC on HybridCloud這方面有了更多的經歷和經驗,能給出這樣精辟的總結,實屬行業之幸。
- END -
關于我們:
速石科技專為有高算力需求的企業級用戶提供一站式算力運營解決方案,幫助用戶提升10-20倍業務運算效率,降低成本達到75%以上,加快市場響應速度。目前主要應用領域包括藥物研發、基因測序分析、半導體行業的EDA仿真及電路設計、汽車行業的自動駕駛開發、虛擬碰撞試驗以及AI人工智能。
想了解更多,可添加小F微信(ID:imfastone)
文章推薦:
>>AWS、阿里云、Azure、Google Cloud、華為云、騰訊云 各種云服務器價格收費對比(上)