上云=便宜,不少人腦子里都有這么個簡單粗暴的等式。這種拋開場景談結(jié)論的做法,很容易誤導(dǎo)部分對云不太熟悉的人。
當(dāng)然,我們能理解云這個概念在中國推廣早期階段:拿便宜說事雖可恥,但有用。但現(xiàn)在這階段早過了,我們來刷新一下。
今天這篇,就是給各位CXO大佬認(rèn)真算算上云這筆賬。努力讓大家上云之前心里很有數(shù)。我們給出七種視角,各位大佬根據(jù)企業(yè)自身情況做判斷:
- 實際支出成本
- 浪費的成本
- 隱性成本
- 機會成本
- 潛在風(fēng)險帶來的可能損失
- 潛在機會帶來的可能收益
- 企業(yè)現(xiàn)金流
先說結(jié)論:
1. 企業(yè)上云并不是直接把本地數(shù)據(jù)中心生態(tài)系統(tǒng)搬到另一個地方,是一個涉及資產(chǎn)與成本,當(dāng)下與未來的綜合決策,是否便宜取決于具體應(yīng)用場景;
2.算賬這件事,并不是一場本地和云之間的battle,混合云是企業(yè)最常用的形態(tài)。畢竟,小孩子才做選擇,大人全都要。
但是本地和云還是有根本的差別,兩者站的視角不同,關(guān)注的要素自然也不一樣。立足于本地,是從一個中短期靜態(tài),長期動態(tài)的視角,最關(guān)心的是公司既有資產(chǎn)利用率最大化。立足于云端,是從一個貼合業(yè)務(wù)需求曲線持續(xù)動態(tài)變化調(diào)整的視角,追求的是公司業(yè)務(wù)成果的最大化;
3. 云的成本結(jié)構(gòu)高度依賴于自動化和智能化的運營能力。如果全手動,肯定不便宜;
4. 效率的提升帶來TCO的降低才是計算云成本的正確思路。(TCO-Total Cost of Ownership 總擁有成本:包括資產(chǎn)的所有關(guān)聯(lián)成本)
實際支出成本
實際支出成本:看得見摸得著
這一塊過于直接,大家算得也是最多的,就不展開了。
本地指的主要是基礎(chǔ)建設(shè)成本和維護人力成本,包括:硬件,人力,水電,機房,機架,再加上硬件升級,軟件升級等等。
本地建設(shè)的時間維度我們放到隱性成本里。
云上的資源和服務(wù):用戶根據(jù)需要買云資源和需要的服務(wù),管理維護升級都云廠商來管。當(dāng)然,IT專業(yè)人員還是需要的,這個后面我們會講到。
浪費的成本
本地的浪費
A.需求波動不可測,不是浪費人,就是浪費機器
為了保證最大化本地資產(chǎn)利用率,本地到底需要建設(shè)多大規(guī)模的數(shù)據(jù)中心幾乎不可能準(zhǔn)確預(yù)測。隨著項目數(shù)量的增加,項目進行的不同階段,需求量往往會出現(xiàn)很大波動。通常,使用率很高的階段與很少使用或不使用的階段交替出現(xiàn)。

這張最初源自Cadence的圖,幾乎完美詮釋了這種波動導(dǎo)致的浪費情況。
黃色表示本地資產(chǎn)規(guī)模,藍色區(qū)域表示資源需求量。過相對長一段時間會追加一批機器,再過一段時間發(fā)現(xiàn)不夠了會再追加一批。
在01和02兩個時間段,不是研發(fā)人員因為沒資源可用,只能排著隊喝著咖啡苦苦等待。就是需求量下來了,大量資源被閑置。
雖然這張圖是半導(dǎo)體行業(yè)大佬畫的,但有非常廣泛的適用場景,尤其是在HPC高性能計算領(lǐng)域,比如藥物研發(fā),CAE工業(yè)仿真,人工智能等等。
B.不同部門需求虛報,浪費機器
一方面,從申請資源到分配往往有一定時間差,另一方面還是因為需求測不準(zhǔn)。部門向公司提出申請時往往傾向于多申請一些,或者干脆要求獨占資源,以確保本部門在需要的時候有足夠的資源。但實際利用率卻未必高,造成浪費。
C.本地資源的利用效率和公司IT專業(yè)人員的技術(shù)水平也直接相關(guān)
云上的浪費
A.云的收費模式和本地完全不同,不同云廠商之間也有不少區(qū)別。相當(dāng)一部分企業(yè)可能在還沒搞懂規(guī)則的情況下,費用就上去了。
單說云端實例資源,常見計費模式分為三種:
預(yù)留實例:相當(dāng)于批發(fā),買定離手。主要針對中長期穩(wěn)定需求,優(yōu)點是價格整體比較低,缺點是資源必須長期持有,靈活性差。
按需實例 :相當(dāng)于零售,即買即用。針對短期彈性需求,按小時計費,靈活精準(zhǔn),避免浪費,但價格比較高。
可被搶占實例 :又稱競價實例,相當(dāng)于秒殺,手快有手慢無。作為云資源中的低成本戰(zhàn)斗機,最低可達到按需實例價格的10%。隨時可能被搶占,需要有一定的技術(shù)實力才能使用。怎么合理地用不同云的不同計費模式,確保成本最小化。這個工具包可以先了解一下。

B.手動模式,浪費是不可避免的首先,上面說的競價實例,手動模式就使用不了。這損失可不小,具體可參考:云資源中的低成本戰(zhàn)斗機——競價實例,AWS、阿里云等六家云廠商完全用戶使用指南
然后,手動模式在云上開關(guān)機,經(jīng)常會發(fā)生機器沒有及時關(guān)閉導(dǎo)致的浪費,別小看這一點,浪費真的很嚴(yán)重。24小時盯著?真不是人該干的事。
手動模式已經(jīng)不能滿足企業(yè)優(yōu)化云支出的訴求,自動模式可以快速適應(yīng)環(huán)境變化并不斷優(yōu)化使用過程。預(yù)告一下:我們有個優(yōu)秀的Auto-Scale功能,能基于多云環(huán)境,使集群規(guī)模根據(jù)用戶計算任務(wù)的算力需求,自動增加或減少,以后開單篇仔細講。
C.實際業(yè)務(wù)需求與使用資源不匹配導(dǎo)致的浪費
比如可能申請了超出實際需求的內(nèi)存過大或CPU過多的資源(大和多,就意味著貴)。
D. 不同云廠商各自優(yōu)勢合理配置,減少浪費
隱性成本
隱性成本:經(jīng)常被忽略,但支出也不小
本地的隱性成本
A.本地數(shù)據(jù)中心建設(shè)與升級的一系列問題:規(guī)劃、建筑、施工、培訓(xùn),是一個非常復(fù)雜的過程,每一個環(huán)節(jié)都不能出問題。同時,必須與內(nèi)部客戶合作以確保服務(wù)的連續(xù)性。
B.不同業(yè)務(wù)部門資源的搶奪
C.業(yè)務(wù)部門和IT部門的溝通成本
用云的隱性成本
A.云本身使用難度和門檻
目前主流云廠商所提供的產(chǎn)品線已經(jīng)相當(dāng)完善,有不少面向行業(yè)的解決方案。但產(chǎn)品和服務(wù)數(shù)量實在是過于龐大,入口也很多,最終導(dǎo)致操作層面的復(fù)雜性。
再考慮到不同云廠商的使用方式還不一樣,學(xué)習(xí)成本挺高的。
B. 云上超大規(guī)模集群的調(diào)度能力
這一條主要是考慮到云上近乎無限的資源池總量。超大規(guī)模集群調(diào)度的要求自然比普通集群高,就像做一桌滿漢全席和家常小宴自然要求不一樣。
超大規(guī)模集群,我們先問買不買得起,再問買不買得到,然后才是怎么管理,怎么調(diào)度,怎么考慮網(wǎng)絡(luò),怎么安排存儲。
參考:花費4小時5500美元,速石科技躋身全球超算TOP500
C.如果考慮混合云場景IT自動化管理,或者,多本地+多云場景IT自動化管理,這些都是難點。

D.遷移成本??
傳統(tǒng)場景下,如果企業(yè)具備一定本地集群,上云確實需要一定工作量和遷移成本,這包括網(wǎng)絡(luò)打通、數(shù)據(jù)、作業(yè)、應(yīng)用遷移和測試等。規(guī)模越大,工作量就越大。
但對我們來說,遷移成本極低。我們是原生在云上的,在用戶的本地和云上建了一層,只需要考慮數(shù)據(jù)的流動,不需要考慮整體遷移,成本極低。
機會成本
機會成本:被放棄的選擇中的最高價值
資金機會成本
這個錢如果不用在本地建設(shè),花在別的地方能帶來什么?
A.云上用最新型機器帶來的效率提升,時間周期縮短
本地機器更新周期一般以年為單位,特殊需求可能申請?zhí)貏e審批,時間流程也短不了。像“財大氣粗”的云廠商一樣,最新型的機器那邊上市,這邊就上架。基本是不可能的。
最新型機器的好處,不用說大家都懂。
B.云上資源池的超大規(guī)模
前面TOP500我們用的是CPU,再來看看比較難獲取的GPU。
2019年11月,SDSC圣地亞哥超級計算中心聯(lián)合威斯康星州冰立方粒子天體物理中心在AWS,Azure和Google云上一共調(diào)度了超過5萬GPU完成一次仿真模擬計算試驗。

這次計算,基于云的集群提供了全球排名第一超算中心峰值90%的性能。
詳情看2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長率超21%
C.云上資源類型的多樣性,如下圖:

時間機會成本
時間機會成本:時間如果省下來,能帶來什么?
我們說過,云有一個奇妙的特性:花同樣的錢,你可以讓100臺機器跑1個小時,也可以讓1臺機器跑100個小時。然后呢?
后半句我們上次沒講。節(jié)約的99個小時,你可以做些什么?
哈佛大學(xué)醫(yī)學(xué)院利用云平臺,調(diào)用16萬個CPU對接10億分子僅耗時15個小時,如果只有1萬個CPU則需要兩周。具體參考15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發(fā)未來

新藥研發(fā)耗時長,成本高,一直是行業(yè)內(nèi)公認(rèn)的。
時間值多少錢,各家藥企應(yīng)該心里有數(shù)。
換一個場景,半導(dǎo)體怎么樣?
芯片設(shè)計越來越復(fù)雜,周期和人數(shù)都在增加。過去1000人干一年,現(xiàn)在2000人干兩年。華為曾向媒體透露7nm的麒麟980研發(fā)費用遠超業(yè)界預(yù)估的5億美元。
而流片出了名的燒錢,越先進工藝流片的風(fēng)險和費用越高。臺積電第二代7nm EUV工藝的流片費用已經(jīng)是創(chuàng)記錄的3000萬美元、大概2億人民幣左右。而5nm全光罩流片費用又上漲50%,大概要3億人民幣,而且還不包含IP授權(quán)費。
在這里,時間又值多少錢?
EDA上云實證:HSPICE仿真任務(wù),如何用云實現(xiàn)周期提升42倍,從1個月縮短至17小時?

再算算本地資源采購和建設(shè)周期所耗時間,資源不足時,項目進度被延遲的時間,是不是有點心痛。
用這些時間可以換取效率提升,周期縮短,業(yè)務(wù)擴張,市場領(lǐng)先,技術(shù)能力提升。
潛在風(fēng)險帶來的可能損失
云上的安全風(fēng)險一直是大家最擔(dān)心問題,沒有之一。
安全其實是一個相對概念,邊界會隨著時間推進而發(fā)生變化。就像支付寶剛出現(xiàn)的時候,大家還是只敢把錢放在銀行一樣。
A.本地的風(fēng)險和云上的風(fēng)險,互為半斤八兩。
引用一下之前的全球半導(dǎo)體行業(yè)上云格局一覽和十個上云實踐問題的過來人解答,QST和AFRL針對這一問題的回應(yīng):
QST:你不可能確保擁有最優(yōu)秀的IT和最好的安全人員。如果你在本地搭建你的整個設(shè)計系統(tǒng)和環(huán)境,服務(wù)器都在本地,我可以跟你保證你的安全措施肯定是很差的,很容易被外部破解。如果你的IP在云上開發(fā)和存儲,比如AWS,比如cadence,你知道AWS在云上遵循的安全準(zhǔn)則,肯定比在本地要安全多了。
AFRL:盡管我們是云懷疑論者。但大的云廠商在云安全上的控制是對外公開的,每個人都知道你能得到什么,你能夠?qū)徲嬕磺邪踩募6窨鐓^(qū)域的項目,不同的研究人員分散在不同的地方,還有外包商等等,你很難知道大家各自的IT情況怎么樣。而把大家拉到一起,能確保大家在同一個系統(tǒng)里,遵守了同一套準(zhǔn)則。而不是制定一套準(zhǔn)則,寄希望于他們能按這個標(biāo)準(zhǔn)實施。
B.企業(yè)的自建數(shù)據(jù)中心很難做跨大區(qū)域的異地備份,容災(zāi)能力有天然瓶頸
C.針對云上安全問題,云安全責(zé)任共擔(dān)模式已在業(yè)界達成共識,亞馬遜AWS、微軟Azure、阿里云,騰訊云等企業(yè)均采用了與用戶共擔(dān)風(fēng)險的安全策略。
云服務(wù)提供商負責(zé)組建專門團隊保護其服務(wù)的底層基礎(chǔ)設(shè)施不受威脅、漏洞、濫用和欺詐的侵害,用戶負責(zé)安全功能的恰當(dāng)配置,安裝更新和確保雇員不把敏感數(shù)據(jù)泄露給未授權(quán)方等。
潛在機會帶來的可能收益
和現(xiàn)在的互聯(lián)網(wǎng)行業(yè)極其相似,云天然具有規(guī)模效應(yīng)和網(wǎng)絡(luò)效應(yīng)。
A.規(guī)模效應(yīng)。
規(guī)模越大,適配的業(yè)務(wù)場景越多越深,能提供給用戶的福利越豐厚,產(chǎn)品成熟度也越高。
各大云廠商集結(jié)了業(yè)界頂尖的技術(shù)大牛,技術(shù)迭代速度非常快,在絕大多數(shù)情況下,先進技術(shù)轉(zhuǎn)化為產(chǎn)品的效率,要遠遠高于我們自己研發(fā)。
另一方面,產(chǎn)品價格也會越來越便宜。
B.網(wǎng)絡(luò)效應(yīng)。
就像微信一樣,用的人越多,大家越能從合作中獲得更多的便利和好處。比如,機器學(xué)習(xí)算法相關(guān)的非敏感數(shù)據(jù)共享。
當(dāng)然,這需要一個過程。
企業(yè)現(xiàn)金流
現(xiàn)金流反應(yīng)了企業(yè)經(jīng)營的健康程度。
本地自建初期需要一次性支出,中間因業(yè)務(wù)增長需要再補充,然后是硬件整體升級。
云上初期投入小,按使用量付費,整體規(guī)模可控。
自建和用云的現(xiàn)金流趨勢圖如下:

最后,復(fù)習(xí)一下我們的結(jié)論:
1. 企業(yè)上云是否便宜取決于具體應(yīng)用場景;
2. 算賬并不是一場本地和云之間的battle,混合云是企業(yè)最常用的形態(tài);
3. 云的成本結(jié)構(gòu)高度依賴于自動化和智能化的運營能力;
4. 效率的提升帶來TCO的降低才是計算云成本的正確思路。
相關(guān)閱讀:
>> 15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發(fā)未來
>> 【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領(lǐng)域年均復(fù)合增長率超21%
>> 上榜啦~花費4小時5500美元,速石科技躋身全球超算TOP500
速石科技致力于為 生命科學(xué)、 半導(dǎo)體、汽車/智能制造、高校科研、人工智能、互聯(lián)網(wǎng)金融 等領(lǐng)域的企業(yè)提供定制化的上云解決方案 。