超算,國家隊出身,服務于國家級別的科研項目,也是一個國家科技發(fā)展水平和綜合國力的標志之一。
1983年,中國研制出第一臺超級計算機銀河一號,成為繼美國、日本之后第三個能獨立設計和研制超級計算機的國家。
全球超算TOP500排行榜 就屬于各個國家秀肌肉的典型比賽,每年兩次。
而云計算,天生互聯(lián)網基因,為追逐商業(yè)利益而生。
2006年,AWS正式對外開放。
2010年,阿里云正式對外。中國開始有了云計算。
超算近40年,云計算10年。
超算開始走下神壇,對外開放了一些商用的入口。比如我們找到了用“天河二號”來渲染某些群眾喜聞樂見的動畫片的證據——

而飛速發(fā)展的云計算,甚至讓超算界逐漸有了“云超算”或者“超算云”的發(fā)展趨勢。
2019年11月,我們只花了5000美金,用4個小時調用云算力跑進了全球超算TOP500榜單,成為全球第二、亞洲唯一一家完全用公有云算力躋身超級計算機榜單的公司。詳情參考:《上榜啦~花費4小時5500美元,速石科技躋身全球超算TOP500》

超算發(fā)展了那么多年,終于遇到了一個像樣的對手。
超算中心跟云計算中心到底有什么區(qū)別?
普通人怎么使用超算?
用超算工作是怎樣的一種體驗?
對于HPC(高性能計算)用戶,云服務商和超算中心誰更有優(yōu)勢?
……
我們對國內超算中心和云計算中心進行一番全方位的對比,有以下結論:
1、超算總節(jié)點數不超過10萬,云服務器總規(guī)模超過100萬;
2、大部分超算資源不對外開放,云資源完全商業(yè)化,只對單個用戶有配額限制;
3、超算提供基于傳統(tǒng)HPC場景的一整套垂直方案,云基于IaaS層提供豐富的產品和服務種類供用戶選擇;
4、使用超算和云資源,對用戶來說,各有各的難度;
5、超算只有排隊作業(yè)和獨占節(jié)點兩種計費方式,云一般有按需、預留、競價實例三種,使用靈活性和彈性高;
6、超算申請步驟繁瑣、審核麻煩、商用昂貴,云幾乎沒有門檻;
7、超算的平均硬件更新周期一般為數年,而用戶能夠以最快的速度在云端體驗最新硬件;
8、云擁有完整的第三方合作伙伴生態(tài)來更好地服務客戶;
9、超算正在嘗試向云靠攏。
我們有一份2020年新版《六大云廠商資源價格對比工具包》以及一份在撰寫本文過程中收集整理的國內超算整體數據信息,歡迎文末掃碼添加小F微信獲取~
以下是對比正文
整體規(guī)模
主要包含三個指標:總規(guī)模、可用規(guī)模和短時最大可調用規(guī)模。
1、總規(guī)模

我們盤點了中國已落成的主要超算中心的總節(jié)點數量,總數為54588個,其中未包括一些正在建設中的超算中心,以及小型超算中心。
即便加上這些數量,中國超算中心的總節(jié)點數量級也未過十萬。
那么國內主流云廠商有多少臺服務器呢?
雖然各大云廠商并沒有公開自身的服務器總數,但我們可以從其可用區(qū)的數量來進行推算。可用區(qū)的概念是一個數據中心群,通常包含若干個超大規(guī)模數據中心。
2018年6月,阿里云宣布已在全球18個地域開放了44個可用區(qū),當時國泰君安出的投研報告估算其服務器總量超過50萬臺,即單個可用區(qū)約有1.14萬臺服務器。
如今阿里云在全球共有63個可用區(qū),其中國內有41個。可推算出阿里云在全球約有71.5萬臺服務器,國內約為46.5萬臺。

根據IDC公布的中國公有云市場份額占比,阿里云以46.5萬臺服務器搶下了超過40%的市場份額,我們據此反推出國內云廠商的服務器總量超過116萬臺,與超算中心完全不在一個數量級,可以看下圖感受一下差距。

2、可用規(guī)模
傳統(tǒng)超算中心是典型的圈地自萌,各個中心之間互不相通。
而云計算中心的各個可用區(qū)之間是可以打通的,甚至還可以在不同云廠商之間通過API調用打通使用,這意味著云計算中心的可用規(guī)模約等于其總規(guī)模。
超算中心需要保障有充足的算力供給國家級科研項目,通常只會拿出少量的資源對外開放,且對單個用戶申請的資源上限進行嚴格審核,如國家超級計算長沙中心規(guī)定單個用戶最多使用100個節(jié)點,不到其節(jié)點總數的5%。
云計算中心對于單個用戶也有類似的限制,稱為“服務配額”,該配額根據賬號的使用情況與可用區(qū)的實際情況而定。
跟信用卡額度有異曲同工之妙。
3、短時最大可調用規(guī)模
云計算的一大特色就是具備短時間內大規(guī)模調用海量計算資源的能力,這一能力已在各行各業(yè)經過了充分的驗證。
前不久,哈佛大學醫(yī)學院在《Nature》發(fā)布了VirtualFlow開源藥物發(fā)現(xiàn)平臺,稱利用該平臺調用16萬個CPU對接10億個分子僅耗時約15小時,而使用1萬個CPU則需要2周,具體可戳這里:《15小時虛擬篩選10億分子,Nature+HMS驗證云端新藥研發(fā)未來》

再看一般難獲取的GPU資源。
2019年11月,SDSC圣地亞哥超級計算中心聯(lián)合威斯康星州冰立方粒子天體物理中心在AWS,Azure 和 Google云上一共調度了超過5萬GPU完成一次仿真模擬計算試驗。

圖片來源:IgorSfiligoi, SDSC/加州大學圣地亞哥分校
這次計算,基于云的集群提供了全球排名第一超算中心峰值90%的性能。詳情見
《2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%》
超算并不具備這樣的靈活性,我們將在后面的部分討論申請超算資源的種種門檻。
超算中心與云計算中心在總規(guī)模,可用規(guī)模,短時最大可調用規(guī)模上均存在相當大的差距。
使用體驗
如果說超算中心是套餐,基本都給你配好了;
云計算中心就是自助餐,想怎么搭就怎么搭。
超算中心面向的是典型的傳統(tǒng)高性能計算(HPC)場景,基于大規(guī)模并行計算而設計的,在基礎架構上進行了一定的適配,提供的是一整套垂直方案,這使得超算的專用性極強,而通用性則較弱,因此提供的產品與服務較為固定化。
而云則是基于IaaS層服務,更底層和模塊化,提供的是層級豐富、類型多樣的產品和服務,軟件定義的特點使其可以根據任務自由分配資源,在面對不同的用戶時通用性更強,用戶可以根據需要自行搭配使用。

我們將分為基礎資源、附加服務、使用難度三方面來對比:
1、基礎資源
基礎資源包括計算資源、存儲空間、網絡帶寬。
超算的計算節(jié)點是影響性能指標的核心部分,過去的超算大多采用同構計算(由純CPU組成計算節(jié)點),后來研究人員發(fā)現(xiàn)GPU在計算加速上優(yōu)勢巨大,于是不少超算開始采用異構計算(由CPU+GPU組成計算節(jié)點),其中CPU和GPU均可單獨對外出租。
而云計算中心除了常見CPU和GPU之外,還包括FPGA和TPU,相比超算中心更為豐富。
傳統(tǒng)超算中心的節(jié)點是物理機,幾乎沒有調整余地。
比如國家超級計算天津中心“天河一號”的節(jié)點配置為:雙路12核,2*Intel Xeon X5670@2.93GHz+Tesla M2050,內存24GB/48GB

一張表就涵蓋了整個超算中心能提供的所有的計算資源、存儲空間、網絡帶寬。
長沙中心的基礎資源則包括以下內容:

雖然相比天津中心有了更多的選擇,但整體選擇余地依然不大。
云計算中心主要提供的是虛擬資源,用戶能夠享受到更為豐富的計算資源選擇。
如某公有云廠商的企業(yè)級云服務器ECS分為通用型、計算型、內存型、大數據型、GPU型、本地SSD型、高主頻型、FPGA型、彈性裸金屬九大類,其中每一種類型還可以選擇與不同存儲和網絡的組合。

存儲空間方面,可以選擇20-500GiB不等的高效云盤或SSD云盤作為系統(tǒng)盤,單塊數據盤最多則可配到32768GiB。

網絡帶寬的選擇范圍也很大,用戶可以選擇“按固定帶寬”和“按使用流量”兩種帶寬計費模式,前者的帶寬值可選范圍為1-200M,后者的帶寬峰值可選范圍為1-100M。

綜合計算資源、存儲空間、網絡帶寬,云計算中心給用戶提供了更多選擇的空間。
2、附加服務
在基礎資源之外,超算中心偶爾也會提供一些附加服務,但并不多見,如某高校超算中心為用戶提供以下服務:

云計算中心提供的服務完全就是另一幅畫風了,就看你想要什么吧。

3、使用難度
說起使用難度,超算中心與云計算中心各有各的難。
在系統(tǒng)方面,主流超算大多使用Linux系統(tǒng),對于許多習慣了圖形界面操作系統(tǒng)的用戶而言,存在一定的上手難度。
貼一張超算的實際操作界面,大家感受一下——

這種命令行界面對不少非計算機專業(yè)的用戶可以起到良好的勸退效果。
另一方面,雖然目前的超算中心大多使用Linux系統(tǒng),但幾乎每個超算都會使用不同的系統(tǒng)版本,這就導致其命令行下的命令也會存在一定的區(qū)別,比如有些命令是各個發(fā)行版本定制的(如Red Hat的rhn_register命令是其獨有的,其他版本不存在),一旦用戶需要更換超算中心使用,就需要額外的學習成本。

相比之下,云計算中心就友好一些,以圖形化界面為主。
而且,他們把選擇權交給用戶,提供豐富的產品和服務。
但是,問題來了。
云和本地資源的管理方式、部署模式和收費模式有很大區(qū)別,不同云廠商之間也有不少區(qū)別。
目前主流云廠商所提供的產品線已經相當完善,有不少面向行業(yè)的解決方案。但產品和服務數量實在是過于龐大,入口也很多,最終導致操作層面的復雜性。
而因為云上近乎無限的資源池總量帶來的超大規(guī)模集群的調度和管理,是傳統(tǒng)手動模式無法跟上的。
更不用說涉及到本地和云同時使用的混合云場景IT自動化管理,或者多本地+多云場景IT自動化管理,這些都對IT技術能力有很多新的要求。
因此,從基礎資源,附加服務,使用難度而言,超算中心與云計算中心的使用體驗也有很大差距。
計費方式
超算中心的計費方式主要有排隊作業(yè)和獨占節(jié)點兩種。
排隊作業(yè)的意思是,付費用戶的作業(yè)與其他用戶的作業(yè)一起參與排隊,用戶作業(yè)所需資源具備時開始運行,用戶需要按照實際使用的機時支付相關費用。

這意味著太緊急的任務接不了,因為你不知道何時能排到;太大的任務也接不了,因為等待合適資源的時間可能會非常久。
我們來看第二種計費方式——獨占節(jié)點,這與云計算中心的預留實例類似,可按月/半年/年使用付費。以下是國家超級計算長沙中心通用CPU服務器的配置及收費標準(單位:萬元/年),可以看到根據合約的長短,超算中心會給予一定的折扣:

至于云計算中心,之前我們對包括AWS、阿里云、Azure、Google Cloud、華為云、騰訊云在內的六家主流云廠商的計費模式有過非常詳細的分析:

預留實例:相當于批發(fā),買定離手。
主要針對中長期穩(wěn)定需求,優(yōu)點是價格整體比較低,缺點是資源必須長期持有,靈活性差。
按需實例:相當于零售,即買即用。
針對短期彈性需求,按小時計費,靈活精準,避免浪費,但價格比較高。
可被搶占實例:相當于秒殺,手快有手慢無。
價格可高可低波動大,隨時可能被搶占,需要有一定的技術實力才能使用。
詳細說明推薦看這兩篇:
《【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云》
《云資源中的低成本戰(zhàn)斗機——競價實例,AWS、阿里云等六家云廠商完全用戶使用指南》
總結一下兩者的計費方式,超算由于資源有限,只有排隊作業(yè)和獨占節(jié)點兩種方式,且存在限制;云計算中心的計費方式則包括預留實例、按需實例、可被搶占實例,相比超算更為靈活。
商用門檻
首先是流程,幾乎每家超算中心都有一套申請、審核、使用流程,平均需要5.8個步驟。以國家超級計算天津中心為例,其步驟如下:

其次是審核,并非用戶遞交了申請,就一定能夠獲得通過,由于超算中心的資源會優(yōu)先供給科研項目,因此對高校用戶較為友好,商業(yè)用戶的優(yōu)先級則相對較低。
最后是收費。高校超算中心通常會對本院校內的用戶實施優(yōu)惠政策,有時優(yōu)惠價格甚至只有商業(yè)用戶的四分之一。

而與云計算中心類似的是,超算中心也制定了“量大從優(yōu)”的優(yōu)惠政策,但是這個量的上限可能很快到達。

步驟繁瑣、審核不易、商用昂貴,這些使用門檻會進一步阻礙商業(yè)用戶使用超算的熱情。
至于云計算中心,其為商用而生的本質注定了云幾乎不存在門檻:
1、申請云資源流程簡便,可以說是即開即用;
2、收費上,每家公有云廠商都有多種資源模式,用戶可以根據自己的實際需求選擇合適的模式,以最大程度節(jié)省成本;
3、云廠商的各類打折促銷活動和新用戶優(yōu)惠層出不窮;
4、對于商業(yè)用戶,云廠商往往會推出企業(yè)折扣。
更新周期
硬件的更新周期也是一個隱形的性能衡量指標,畢竟在相近的單價下,你拿著兩塊相差三年上市的CPU非要拼性能,就有點太欺負人了。
在硬件更新周期的比拼上,我們主要關注兩個維度:
總體更新周期和最新硬件更新周期。
總體更新周期指機房建設完成后,大規(guī)模更新硬件的周期。
由于建設超算中心所受到的各種影響因素較多,不同超算中心對硬件的更新周期差距很大。
通過對國內已知超算中心的盤點,我們發(fā)現(xiàn)總體更新周期最快的是上海交通大學高性能計算中心:
2013年6月,其研發(fā)的π1.0超算系統(tǒng)于進入全球超算TOP500;
2016年初,π1.2升級完成;
2019年4月,π2.0正式上線。
基本按照3年一次的更新速度穩(wěn)步推進。
其他超算中心就慢得多了,比如中國科學院超級計算中心懷柔分中心的“元”超級計算系統(tǒng)一期于2014年建設完成并投入使用,用于替換已運行近6年的深騰7000超級計算系統(tǒng)。而“元”運行至今也已有6年,尚未進行下一代更新。

圖片來源:中國科學院超級計算中心
云計算中心的建設通常更為成熟和商業(yè)化,其總體更新周期較為固定。通常而言,云廠商會依據具體的更新策略有序推進硬件更新工作,這些指導方針往往會精確規(guī)定硬件更換的頻率,如服務器每五年更換一次,硬盤每三到五年更換一次,或者不間斷電源電池每兩年更換一次。
總體而言,云計算中心的平均總體更新周期與更新最快的超算中心大致相仿。
最新硬件更新周期是指硬件廠商推出最新規(guī)格或型號的產品之后,用戶需要多久能夠在超算中心或云計算中心使用該產品。
超算中心從規(guī)劃設計到正式上線需要經歷若干年的時間,能夠在上線時配置當年上市的硬件已經是其規(guī)劃能力的最佳體現(xiàn),其最新硬件更新周期以年為單位。
而云計算廠商可以將最新硬件更新周期縮短到以小時計。
2019年4月3日上午,Intel在太平洋兩岸近乎同步發(fā)布了代號Cascade Lake的第二代至強可擴展處理器。

當天中午12點,國內某云廠商便宣布其基于Cascade Lake的全新一代通用計算增強型云服務器C6正式轉為商用。
此時,Intel在北京的發(fā)布會尚未結束,距舊金山的發(fā)布會開始也還不到12小時。
合作生態(tài)
各大云廠商均打造了完整的合作伙伴體系和計劃,包括一系列的培訓與認證,為廣大第三方提供包括產品課程、解決方案課程、認證培訓課程在內的多項課程。
云廠商還會對合作伙伴的種類進行明確的劃分,比如某公有云廠商便將合作伙伴分為系統(tǒng)集成商、戰(zhàn)略咨詢公司、代理機構、托管服務提供商、原始設備制造商、半導體制造商、網絡運營商,不同類型的合作伙伴各司其職,技術互補,形成一條完整的生態(tài)鏈,為其客戶多角度、全方位、常態(tài)化地提供形形色色的服務。
這些恰恰都是傳統(tǒng)超算中心所欠缺的,究其原因,在于其底層差異——超算是一套封閉的系統(tǒng),而云是一個開放的平臺。
超算云 VS 云超算
不管是超算云還是云超算,我們看到的概念基本是將超算的既有資源以云的形式賣出去,包括計費和服務都在向云靠攏。
目前幾大國家超算中心均有超算向云靠攏的動靜,以廣州中心為例。
根據官網介紹,該中心提供云超算服務和天河星光云超算平臺兩類云服務。

圖片來源:國家超級計算廣州中心
前者采用麒麟安全云系統(tǒng)實現(xiàn)虛擬化技術,將虛擬機資源遠程推送給用戶使用。用戶可按照所需的虛機配置與數量進行彈性購買,最大限度節(jié)約成本,目前虛擬機規(guī)格共有4種,從4核8G內存到24核64G內存不等。
后者則在前者的基礎上更進一步,嵌入應用軟件中心、遠程可視化和工作流管理三大模塊,讓用戶能夠通過圖形化界面高效使用和管理應用。
是時候展現(xiàn)真正的技術了:
我們有個【在線體驗版】云平臺,掃碼即可注冊,2分鐘自動開通。即刻就能獲得TOP500這種超級算力,你就不想試一下?你想要的我們可能都有,還送300元體驗金,入股不虧的~
戳這里 -> 【在線體驗版】
- END -
2020年新版《六大云廠商資源價格對比工具包》
掃碼添加小F微信(ID: imfastone)獲取

你也許想了解具體的落地場景 :
EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發(fā)未來
2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%
關于云端高性能計算平臺: