本文重點:
傳統的HPC應用的特殊性與昂貴硬件和大量基礎設施投入,成為高性能計算擁抱新技術、新平臺的兩大障礙。
隨著通用計算市場逐漸飽和,刺激各大云提供商的持續投入,終于讓高性能計算上云不再只是少數傳統玩家的專利。
數據量和業務類型的雙爆發使傳統的高性能計算集群,比如超級計算中心的模式,已經很難跟上業務增長的步伐。
云端高性能計算(Cloud HPC),顧名思義,就是在云計算平臺上運行高性能計算的分析任務。
這個名詞,包括其近義詞:高性能計算云(HPC Cloud),何時開始使用并沒有一個公認的說法。時至今日,在維基百科(英文)網站上也沒有這么一個詞條。稍微扯得上一點關系的是高性能計算 / 超級計算機詞條下的一個小節:云中的高性能計算(HPC in the Cloud)。
然而從去年到今年,我們真真切切地感受到了這個詞要火起來的節奏。
作為標志性的事件,我們看到了這個行業的第一份市場分析研究報告:來自Market Research Future的《CloudHPC市場研究報告——及2023年預測》。
讓我們一起來回顧一下Cloud HPC的發展歷程,面臨的挑戰以及未來發展趨勢。

云端高性能計算市場
(來源:Market Research Future)
傳統高性能計算:專用硬件/軟件庫
高性能計算是計算機科學領域發展的一個特殊分支,不同于我們平常接觸的通用計算。
傳統上,高性能計算主要應用于大規模科學計算,例如天氣預報、石油勘探、汽車碰撞模擬、藥物研發等。這些任務通常是通過超級計算機,或者大規模計算集群運行,通過集群內的各節點協同工作完成的。一個分析任務被分解為一系列的子任務,分布到不同的節點上運行。子任務之間經常是緊耦合的,即需要緊密合作完成分析。
因此傳統的高性能計算集群通常需要很多特殊的硬件來加速節點間通訊:高帶寬、低延時、低CPU占用率的等等。其中代表性的技術就是Infiniband和RDMA,而不是我們通常所見的以太網。
此外,為了將集群資源抽象為一個統一的資源池,從而實現高效的并行計算,大多數的高性能計算應用需要使用統一的開發庫,其中最流行的解決方案就是消息傳遞接口(MPI)。所有的進程都必須通過開發庫提供的接口進行相互通訊和數據交換。
另外,通常也需要專為高性能計算優化的存儲,比如Lustre,在此就不展開了。
傳統的HPC應用的并發擴展性與算法設計緊密相關,因而通常并不能線性擴展。
這些特殊性后期實際上成為了一把雙刃劍,一定程度上成為高性能計算擁抱新技術、新平臺的障礙。

高性能計算涉及領域(來源:ICHEC)
云計算崛起:成功?障礙?
早在十余年前,云計算剛剛起步,虛擬化大行其道的時候,就開始有熱烈的討論,是否要將虛擬化的浪潮引入高性能計算領域。當時第一個大的顧慮,就是虛擬化帶來的性能損失,包括計算性能損耗和額外的網絡延時等等。
此外,前文提到的許多特殊硬件,也沒有好的虛擬化 / 多租戶方案。
最終結果:第一波沖擊,生不逢時,波瀾不驚。
等到以亞馬遜(AWS)為代表的云計算崛起,通用云計算市場成為市場的寵兒,獲得了快速發展。用戶開始習慣在云計算平臺上部署 / 運行各種不同類型的業務。
然而多年來通用計算業務的高速增長,一定程度上卻妨礙了高性能計算在云端的布局。
為什么?
當通用計算市場需求快速增長的時候,云提供商們會滿足于當前的業務,也就是所謂的“容易摘的果子”(low-hanging fruit)。像高性能計算這種需要昂貴硬件和大量基礎設施投入的新型業務,自然就沒有理由得到重視。
因此長期以來,云計算平臺上運行的多是服務型應用;包括后來容器技術和Kubernetes的流行,也是主要服務于這一類型應用的。
計算密集型的用戶們只能靜待時機。
契機:通用云計算市場成熟
這兩年來,隨著云計算技術逐漸成熟,市場開始慢慢飽和。不管是國際還是國內市場,都已經出現了幾家大廠瓜分大部分市場的情況。
通用云計算風光不再,新興的增長點自然而然就會得到大家的青睞了;高性能計算上云終于到了瓜熟蒂落的時候。隨著各大云提供商的持續投入,高性能計算不只是少數傳統玩家的專利,而是作為一項新型服務(HPC-as-a-service)向普通用戶開放。
更多的新用戶也能夠利用高性能計算技術 / 平臺拓展新的業務,或者重構現有的計算應用,同時享受云端的擴展性等福利。

微軟Azure上HPC技術支持的發展歷程(來源:Azure)
動力:數據量和業務類型的雙爆發
一方面,傳統的高性能計算應用仍在,然而要處理的數據量已今非昔比。
隨著數據采集設備的成本下降,以及存儲成本的白菜價趨勢,近些年來數據量的增產實際上是爆發式的。傳統的高性能計算集群,比如超級計算中心的模式,已經很難跟上業務增長的步伐。
另一方面,更為重要的是,各種新型業務開始出現,大大拓展了高性能計算的業務范疇。
其中就包括大家熟悉的,正在風口上的人工智能(AI)和機器學習(ML)。還有基于人體全基因分析的精準醫療,創新藥的研發模擬等等。
與之相配套的是大量新型硬件的出現,比如針對通用計算的顯卡(GP-GPU),專為TensorFlow設計的TPU,以及各種FPGA專用芯片等等。僅剛剛過去的2018年,這樣的新硬件就不下數十種。
這些新型的硬件,在設計之初就充分考慮到了多租戶、虛擬化、容器化等新型的系統需求,對于云端高性能計算的快速增長也是功不可沒的。

新型硬件:Google TPU(來源:Google)
趨勢:巨大的市場潛力
盡管云端的高性能計算還存在這樣那樣的短板,市場的發展卻是勢不可擋。
大家開始在云端運行各種高性能計算任務,涉及生命科學、化工、人工智能、汽車設計、精準醫療、數字圖像處理等各種科學 / 商業計算場景。
高性能計算用戶也開始能享受到云計算平臺帶來的快速部署、可擴展性、多租戶、按使用量付費好處。
Market Research Future(MRFR)的調查表明,目前大概有25%的企業都有運行高性能計算業務,云端高性能計算在接下來的五年內仍將保持高達21%的年均增長率。
- END -
關于我們:
速石科技專為有高算力需求的企業級用戶提供一站式算力運營解決方案,幫助用戶提升10-20倍業務運算效率,降低成本達到75%以上,加快市場響應速度。目前主要應用領域包括藥物研發、基因測序分析、半導體行業的EDA仿真及電路設計、汽車行業的自動駕駛開發、虛擬碰撞試驗以及AI人工智能。
想了解更多,可添加小F微信(ID:imfastone)
文章推薦:
>>AWS、阿里云、Azure、Google Cloud、華為云、騰訊云 各種云服務器價格收費對比(上)