
4個小時
5530美元
41472個核
速石科技跑進(jìn)最新全球超算TOP500!
亞洲第一,全球第二家用云算力跑進(jìn)榜單,我們覺得自己可以適當(dāng)驕傲一下。

TOP500是啥?
TOP500項目是針對全球已知最強(qiáng)大的電腦系統(tǒng)做出排名與詳細(xì)介紹。開始于1993年,至今已經(jīng)持續(xù)26年,一年出版兩次最新超級計算機(jī)排名列表,旨在提供一個可靠的基礎(chǔ)追蹤與偵測高性能計算的趨勢。
TOP500是按照什么標(biāo)準(zhǔn)排名的?
按照計算速度,準(zhǔn)確地說是High Performance Linpack (HPL)指標(biāo)值。用專業(yè)語言來說,是每秒能夠執(zhí)行多少次浮點運算。1 Petaflops=每秒一千萬億次浮點運算。
我們的HPL值是1.1626 Petaflops。
成績單如下:

(https://www.top500.org/system/179804)
我們的競爭對手都是誰?
看看前四名感受一下:
第一名:美國橡樹嶺國家實驗室的Summit系統(tǒng),使用Power9 CPU和NVIDIA Tesla V100 GPU。
第二名:Lawrence Livermore國家實驗室的Sierra,使用的芯片與Summit相同。
第三名:“神威-太湖之光”超級計算機(jī),由中國國家并行計算機(jī)工程與技術(shù)研究中心(NRCPC)開發(fā),安裝在無錫國家超級計算中心,由Sunway的SW26010處理器提供動力。
第四名:天河2A,由中國國防科技大學(xué)(NUDT)開發(fā)的系統(tǒng),部署在中國國家超級計算機(jī)中心。由Intel Xeon CPU和Matrix-2000加速器提供動力。
國家實驗室,國家超級計算中心,全球最知名的幾家硬件廠商,比如英特爾,TOP500榜單基本由他們組成。
具體是怎么實現(xiàn)的?
操作系統(tǒng): Amazon Linux 2
軟件平臺:fastone自研
云資源:北美區(qū)AWS EC2實例,主要是低成本的Spot實例(參考:云資源中的低成本戰(zhàn)斗機(jī)——競價實例,AWS、阿里云等六家云廠商《完全用戶使用指南》)
CPU:Xeon Platinum8124M 18C 3GHz
內(nèi)存:165,888 GB
核數(shù):41,472
網(wǎng)絡(luò):25G以太網(wǎng)
運行時間:4小時
運行成本:5530美元
這個事兒到底厲害在哪?
一、用云算力比肩這些傳統(tǒng)超級計算中心
我們是全球第二,亞洲唯一一家完全用公有云算力躋身超級計算機(jī)榜單的公司。
這個事其實AWS在2013年自己干過,那時候的HPL成績是0.4842 Petaflops,排名64位。這六年來榜單的要求已經(jīng)提高了非常多。最新排名64位的HPL成績是3.4096 Petaflops。進(jìn)入榜單的最低門檻都是1.14 Petaflops。
二、時間和花費低到驚人
我們一共只花了5530美元,跑了4個小時,遠(yuǎn)遠(yuǎn)低于TOP500榜單上其他各種組織所需的成本。
按4萬個核假設(shè):每臺機(jī)器按36個核算,共1111臺機(jī)器。
每臺機(jī)器20萬,約2.2億元人民幣。
這還只是機(jī)器,不考慮網(wǎng)絡(luò),安裝,人力等等。
還有,6-12個月甚至更長的等待時間。
機(jī)器集群的成本-1024x478.png)
三、在云上短時間組織和配置超大規(guī)模集群的能力
1、大規(guī)模集群按需啟動,即啟即用
僅用數(shù)分鐘就能完成部署應(yīng)用,準(zhǔn)備數(shù)據(jù),運行集群整個過程。
2、大規(guī)模集群動態(tài)監(jiān)控能力
速石平臺集成了對每個節(jié)點狀態(tài)的監(jiān)控,包括CPU,內(nèi)存和網(wǎng)絡(luò)的狀態(tài)利用率的監(jiān)控。這些監(jiān)控指標(biāo)會被匯總,并通過統(tǒng)一的觀察界面展示,這讓我們可以迅速定位瓶頸,調(diào)整任務(wù)的參數(shù)或者改變配置來獲得更好的結(jié)果。
3、大規(guī)模集群動態(tài)調(diào)優(yōu)能力讓整個過程資源利用率得到了優(yōu)化
由于整個構(gòu)建過程可定制的特點,我們可以很方便地修改參數(shù),例如系統(tǒng)和MPI級別的一些參數(shù)。如果沒有自動化工具的幫助,修改數(shù)千個節(jié)點將會耗費相當(dāng)?shù)臅r間和精力。而通過速石的自動化調(diào)度平臺,1152個節(jié)點僅用幾分鐘就完成了新參數(shù)的修改,我們可以很快很經(jīng)濟(jì)地驗證參數(shù)是否符合預(yù)期。
4、自動識別并采用低成本實例的能力
這次計算全部采用Spot節(jié)點進(jìn)行。平臺對搶占可能性做出了預(yù)判,選擇了搶占可能性比較小,但又有足夠資源的區(qū)域進(jìn)行。在整個過程中沒有遇到被搶占導(dǎo)致的任務(wù)失敗。
最后,我們想說:
云已經(jīng)成長到能夠完成這些原本是昂貴的超級計算機(jī)才能完成的事。
關(guān)于算力,我們拼的不是速度,我們關(guān)心的是怎么幫助用戶獲取到這些算力。
- END -
關(guān)于我們:
速石科技專為有高算力需求的企業(yè)級用戶提供一站式算力運營解決方案,幫助用戶提升10-20倍業(yè)務(wù)運算效率,降低成本達(dá)到75%以上,加快市場響應(yīng)速度。目前主要應(yīng)用領(lǐng)域包括藥物研發(fā)、基因測序分析、半導(dǎo)體行業(yè)的EDA仿真及電路設(shè)計、汽車行業(yè)的自動駕駛開發(fā)、虛擬碰撞試驗以及AI人工智能。
想了解更多,可添加小F微信(ID:imfastone)
統(tǒng)找它-1024x468.jpg)
文章推薦:
>>AWS、阿里云、Azure、Google Cloud、華為云、騰訊云 各種云服務(wù)器價格收費對比(上)