上云=便宜,不少人腦子里都有這么個簡單粗暴的等式。這種拋開場景談結論的做法,很容易誤導部分對云不太熟悉的人。
當然,我們能理解云這個概念在中國推廣早期階段:拿便宜說事雖可恥,但有用。但現在這階段早過了,我們來刷新一下。
今天這篇,就是給各位CXO大佬認真算算上云這筆賬。努力讓大家上云之前心里很有數。我們給出七種視角,各位大佬根據企業自身情況做判斷:
- 實際支出成本
- 浪費的成本
- 隱性成本
- 機會成本
- 潛在風險帶來的可能損失
- 潛在機會帶來的可能收益
- 企業現金流
先說結論:
1. 企業上云并不是直接把本地數據中心生態系統搬到另一個地方,是一個涉及資產與成本,當下與未來的綜合決策,是否便宜取決于具體應用場景;
2.算賬這件事,并不是一場本地和云之間的battle,混合云是企業最常用的形態。畢竟,小孩子才做選擇,大人全都要。
但是本地和云還是有根本的差別,兩者站的視角不同,關注的要素自然也不一樣。立足于本地,是從一個中短期靜態,長期動態的視角,最關心的是公司既有資產利用率最大化。立足于云端,是從一個貼合業務需求曲線持續動態變化調整的視角,追求的是公司業務成果的最大化;
3. 云的成本結構高度依賴于自動化和智能化的運營能力。如果全手動,肯定不便宜;
4. 效率的提升帶來TCO的降低才是計算云成本的正確思路。(TCO-Total Cost of Ownership 總擁有成本:包括資產的所有關聯成本)
實際支出成本
實際支出成本:看得見摸得著
這一塊過于直接,大家算得也是最多的,就不展開了。
本地指的主要是基礎建設成本和維護人力成本,包括:硬件,人力,水電,機房,機架,再加上硬件升級,軟件升級等等。
本地建設的時間維度我們放到隱性成本里。
云上的資源和服務:用戶根據需要買云資源和需要的服務,管理維護升級都云廠商來管。當然,IT專業人員還是需要的,這個后面我們會講到。
浪費的成本
本地的浪費
A.需求波動不可測,不是浪費人,就是浪費機器
為了保證最大化本地資產利用率,本地到底需要建設多大規模的數據中心幾乎不可能準確預測。隨著項目數量的增加,項目進行的不同階段,需求量往往會出現很大波動。通常,使用率很高的階段與很少使用或不使用的階段交替出現。

這張最初源自Cadence的圖,幾乎完美詮釋了這種波動導致的浪費情況。
黃色表示本地資產規模,藍色區域表示資源需求量。過相對長一段時間會追加一批機器,再過一段時間發現不夠了會再追加一批。
在01和02兩個時間段,不是研發人員因為沒資源可用,只能排著隊喝著咖啡苦苦等待。就是需求量下來了,大量資源被閑置。
雖然這張圖是半導體行業大佬畫的,但有非常廣泛的適用場景,尤其是在HPC高性能計算領域,比如藥物研發,CAE工業仿真,人工智能等等。
B.不同部門需求虛報,浪費機器
一方面,從申請資源到分配往往有一定時間差,另一方面還是因為需求測不準。部門向公司提出申請時往往傾向于多申請一些,或者干脆要求獨占資源,以確保本部門在需要的時候有足夠的資源。但實際利用率卻未必高,造成浪費。
C.本地資源的利用效率和公司IT專業人員的技術水平也直接相關
云上的浪費
A.云的收費模式和本地完全不同,不同云廠商之間也有不少區別。相當一部分企業可能在還沒搞懂規則的情況下,費用就上去了。
單說云端實例資源,常見計費模式分為三種:
預留實例:相當于批發,買定離手。主要針對中長期穩定需求,優點是價格整體比較低,缺點是資源必須長期持有,靈活性差。
按需實例 :相當于零售,即買即用。針對短期彈性需求,按小時計費,靈活精準,避免浪費,但價格比較高。
可被搶占實例 :又稱競價實例,相當于秒殺,手快有手慢無。作為云資源中的低成本戰斗機,最低可達到按需實例價格的10%。隨時可能被搶占,需要有一定的技術實力才能使用。怎么合理地用不同云的不同計費模式,確保成本最小化。這個工具包可以先了解一下。

B.手動模式,浪費是不可避免的首先,上面說的競價實例,手動模式就使用不了。這損失可不小,具體可參考:云資源中的低成本戰斗機——競價實例,AWS、阿里云等六家云廠商完全用戶使用指南
然后,手動模式在云上開關機,經常會發生機器沒有及時關閉導致的浪費,別小看這一點,浪費真的很嚴重。24小時盯著?真不是人該干的事。
手動模式已經不能滿足企業優化云支出的訴求,自動模式可以快速適應環境變化并不斷優化使用過程。預告一下:我們有個優秀的Auto-Scale功能,能基于多云環境,使集群規模根據用戶計算任務的算力需求,自動增加或減少,以后開單篇仔細講。
C.實際業務需求與使用資源不匹配導致的浪費
比如可能申請了超出實際需求的內存過大或CPU過多的資源(大和多,就意味著貴)。
D. 不同云廠商各自優勢合理配置,減少浪費
隱性成本
隱性成本:經常被忽略,但支出也不小
本地的隱性成本
A.本地數據中心建設與升級的一系列問題:規劃、建筑、施工、培訓,是一個非常復雜的過程,每一個環節都不能出問題。同時,必須與內部客戶合作以確保服務的連續性。
B.不同業務部門資源的搶奪
C.業務部門和IT部門的溝通成本
用云的隱性成本
A.云本身使用難度和門檻
目前主流云廠商所提供的產品線已經相當完善,有不少面向行業的解決方案。但產品和服務數量實在是過于龐大,入口也很多,最終導致操作層面的復雜性。
再考慮到不同云廠商的使用方式還不一樣,學習成本挺高的。
B. 云上超大規模集群的調度能力
這一條主要是考慮到云上近乎無限的資源池總量。超大規模集群調度的要求自然比普通集群高,就像做一桌滿漢全席和家常小宴自然要求不一樣。
超大規模集群,我們先問買不買得起,再問買不買得到,然后才是怎么管理,怎么調度,怎么考慮網絡,怎么安排存儲。
參考:花費4小時5500美元,速石科技躋身全球超算TOP500
C.如果考慮混合云場景IT自動化管理,或者,多本地+多云場景IT自動化管理,這些都是難點。

D.遷移成本??
傳統場景下,如果企業具備一定本地集群,上云確實需要一定工作量和遷移成本,這包括網絡打通、數據、作業、應用遷移和測試等。規模越大,工作量就越大。
但對我們來說,遷移成本極低。我們是原生在云上的,在用戶的本地和云上建了一層,只需要考慮數據的流動,不需要考慮整體遷移,成本極低。
機會成本
機會成本:被放棄的選擇中的最高價值
資金機會成本
這個錢如果不用在本地建設,花在別的地方能帶來什么?
A.云上用最新型機器帶來的效率提升,時間周期縮短
本地機器更新周期一般以年為單位,特殊需求可能申請特別審批,時間流程也短不了。像“財大氣粗”的云廠商一樣,最新型的機器那邊上市,這邊就上架。基本是不可能的。
最新型機器的好處,不用說大家都懂。
B.云上資源池的超大規模
前面TOP500我們用的是CPU,再來看看比較難獲取的GPU。
2019年11月,SDSC圣地亞哥超級計算中心聯合威斯康星州冰立方粒子天體物理中心在AWS,Azure和Google云上一共調度了超過5萬GPU完成一次仿真模擬計算試驗。

這次計算,基于云的集群提供了全球排名第一超算中心峰值90%的性能。
詳情看2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%
C.云上資源類型的多樣性,如下圖:

時間機會成本
時間機會成本:時間如果省下來,能帶來什么?
我們說過,云有一個奇妙的特性:花同樣的錢,你可以讓100臺機器跑1個小時,也可以讓1臺機器跑100個小時。然后呢?
后半句我們上次沒講。節約的99個小時,你可以做些什么?
哈佛大學醫學院利用云平臺,調用16萬個CPU對接10億分子僅耗時15個小時,如果只有1萬個CPU則需要兩周。具體參考15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發未來

新藥研發耗時長,成本高,一直是行業內公認的。
時間值多少錢,各家藥企應該心里有數。
換一個場景,半導體怎么樣?
芯片設計越來越復雜,周期和人數都在增加。過去1000人干一年,現在2000人干兩年。華為曾向媒體透露7nm的麒麟980研發費用遠超業界預估的5億美元。
而流片出了名的燒錢,越先進工藝流片的風險和費用越高。臺積電第二代7nm EUV工藝的流片費用已經是創記錄的3000萬美元、大概2億人民幣左右。而5nm全光罩流片費用又上漲50%,大概要3億人民幣,而且還不包含IP授權費。
在這里,時間又值多少錢?
EDA上云實證:HSPICE仿真任務,如何用云實現周期提升42倍,從1個月縮短至17小時?

再算算本地資源采購和建設周期所耗時間,資源不足時,項目進度被延遲的時間,是不是有點心痛。
用這些時間可以換取效率提升,周期縮短,業務擴張,市場領先,技術能力提升。
潛在風險帶來的可能損失
云上的安全風險一直是大家最擔心問題,沒有之一。
安全其實是一個相對概念,邊界會隨著時間推進而發生變化。就像支付寶剛出現的時候,大家還是只敢把錢放在銀行一樣。
A.本地的風險和云上的風險,互為半斤八兩。
引用一下之前的全球半導體行業上云格局一覽和十個上云實踐問題的過來人解答,QST和AFRL針對這一問題的回應:
QST:你不可能確保擁有最優秀的IT和最好的安全人員。如果你在本地搭建你的整個設計系統和環境,服務器都在本地,我可以跟你保證你的安全措施肯定是很差的,很容易被外部破解。如果你的IP在云上開發和存儲,比如AWS,比如cadence,你知道AWS在云上遵循的安全準則,肯定比在本地要安全多了。
AFRL:盡管我們是云懷疑論者。但大的云廠商在云安全上的控制是對外公開的,每個人都知道你能得到什么,你能夠審計一切安全文件。而像跨區域的項目,不同的研究人員分散在不同的地方,還有外包商等等,你很難知道大家各自的IT情況怎么樣。而把大家拉到一起,能確保大家在同一個系統里,遵守了同一套準則。而不是制定一套準則,寄希望于他們能按這個標準實施。
B.企業的自建數據中心很難做跨大區域的異地備份,容災能力有天然瓶頸
C.針對云上安全問題,云安全責任共擔模式已在業界達成共識,亞馬遜AWS、微軟Azure、阿里云,騰訊云等企業均采用了與用戶共擔風險的安全策略。
云服務提供商負責組建專門團隊保護其服務的底層基礎設施不受威脅、漏洞、濫用和欺詐的侵害,用戶負責安全功能的恰當配置,安裝更新和確保雇員不把敏感數據泄露給未授權方等。
潛在機會帶來的可能收益
和現在的互聯網行業極其相似,云天然具有規模效應和網絡效應。
A.規模效應。
規模越大,適配的業務場景越多越深,能提供給用戶的福利越豐厚,產品成熟度也越高。
各大云廠商集結了業界頂尖的技術大牛,技術迭代速度非??欤诮^大多數情況下,先進技術轉化為產品的效率,要遠遠高于我們自己研發。
另一方面,產品價格也會越來越便宜。
B.網絡效應。
就像微信一樣,用的人越多,大家越能從合作中獲得更多的便利和好處。比如,機器學習算法相關的非敏感數據共享。
當然,這需要一個過程。
企業現金流
現金流反應了企業經營的健康程度。
本地自建初期需要一次性支出,中間因業務增長需要再補充,然后是硬件整體升級。
云上初期投入小,按使用量付費,整體規??煽亍?/p>
自建和用云的現金流趨勢圖如下:

最后,復習一下我們的結論:
1. 企業上云是否便宜取決于具體應用場景;
2. 算賬并不是一場本地和云之間的battle,混合云是企業最常用的形態;
3. 云的成本結構高度依賴于自動化和智能化的運營能力;
4. 效率的提升帶來TCO的降低才是計算云成本的正確思路。
相關閱讀:
>> 15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發未來
>> 【2020新版】六家云廠商價格比較:AWS/阿里云/Azure/Google Cloud/華為云/騰訊云
>> 2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%
>> 上榜啦~花費4小時5500美元,速石科技躋身全球超算TOP500
速石科技致力于為 生命科學、 半導體、汽車/智能制造、高??蒲?/a>、人工智能、互聯網金融 等領域的企業提供定制化的上云解決方案 。