Bladed是一個用于風力發電機組性能和載荷仿真計算的建模工具,全球大型風力機制造商約有半數采用該軟件。
在風力發電機組的各個設計階段,優化設計都是重中之重。如果不能正確地對載荷、惡劣環境和結構完整性進行建模,或不能執行準確試驗,都可能會極大地危害機組長期的安全性、功能性和盈利能力。
風力機設計項目經常需要進行大量仿真計算,一組仿真計算耗費數千小時的計算機時。
一方面,算力在總量和項目波峰波谷期的彈性供應上能否滿足需求。充足的算力意味著縮短產品上市時間,拉大市場優勢。
另一方面,超大規模算力的調度使用和企業場景的復雜性帶來的管理等問題對IT自動化和智能化要求很高。如何調度超大規模集群的過程,還有其中隱藏的成本優化問題,其實很多。
怎么解決這些問題?
我們拿實證說話。
實證背景信息
某風電新能源集團建設有本地機房,但機器較陳舊,資源有限。跑Bladed仿真任務計算周期長,特別是有大型仿真任務時,往往需要數周甚至數月才能出結果。
用戶要求將跑大型任務的時間縮短到一天以內,同時能夠對任務進行管理和監控。
實證目標
1. Bladed任務能否在云端有效運行?
2. fastone平臺能否將大規模Bladed仿真任務周期縮短到一天?
3. fastone平臺能否提供高效靈活的數據傳輸方案?
4. fastone平臺能否提供有效的任務管理和監控?
實證參數
平臺:
fastone企業版產品
應用:
Bladed 4.10版
操作系統:
Bladed 4.10之前的版本不支持Linux系統,只支持Windows。
本次實證由于用戶更熟悉Windows操作系統,所以并未選擇Linux鏡像。
主流云廠商對不同操作系統鏡像有不同的定價方式。整體上來說,通過Windows系統使用云資源價格比Linux系統要貴。

適用場景:
構建風力發電機性能模型,運行仿真計算并處理結果,為工程師提供有關風力機動力學和優化的重要決策信息。
License配置:
Bladed License Server設置在云端。
云端硬件配置:
Bladed是一個計算密集型應用,對CPU要求高、內存要求不大,因此平臺為用戶推薦選擇了滿足其應用特點的計算優化型實例機型。
調度器:
因為選擇了Windows操作系統,所以本實證中集群調度使用的是PBS調度器。
技術架構圖:
用戶通過Web方式登錄構建于公有云上的fastone算力運營平臺,根據實際計算需求自動創建、銷毀集群,提交計算任務,上傳下載任務,監控管理。
用戶通過NAT方式訪問位于公網的License服務器。
用戶通過VPN接入,可更安全地訪問云上私密的HPC環境。

實證場景一:大規模業務驗證
9600個用例
----------------------------------------------------
本地VS云端300核
結論:
1. 云端可提供滿足Bladed應用特點的機型,運行Bladed Windows版本的任務;
2. 本地資源運算9600個用例,耗時約4天;通過fastone平臺調用300核計算優化型實例運算9600個用例,總耗時約8小時,任務運行時間7小時;
3. fastone平臺的自動化伸縮,有效降低整個計算周期資源占用率;
4. fastone平臺能提供靈活高效的數據傳輸方案,滿足計算數據量大需求;
5. fastone平臺可穩定運行Bladed任務、測試過程中未發生服務中斷;
6. fastone平臺可監控、管理任務與集群的運行情況。

實證過程:
- 數據上傳:用戶將Bladed風文件、工況文件等上傳至fastone平臺;
- 數據處理:自動下載、解壓數據,修改配置;
- 自動可擴展集群啟動:用戶選擇Bladed 應用,按需構建300個核的Bladed集群;
- 任務運行:提交任務后,用戶可隨時在監控界面查看任務和集群運行情況;
- 結果數據上傳:任務運行成功后,自動將結果數據上傳至對象存儲供用戶下載。

數據傳輸優化:
Bladed的風文件和任務文件數據量極大,傳統傳輸模式往往會面臨以下問題:
1、初始化大文件傳輸。在本實證中,用戶在跑任務之前需要上傳多達數百GiB的風文件;
2、隨著任務的調整,有大量小文件需要增量上傳。在本實證中,用戶需要上傳9600個任務文件,每個幾十MiB不等。
fastone支持全自動化數據上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數據。同時,利用fastone自主研發的分段上傳、高并發、斷點續傳等數據傳輸技術,優化海量數據的傳輸效率。
自動化部署:
在手動模式下,通常都是先構建一個固定規模的集群,然后提交任務,全部任務結束后,關閉集群。在本實證中,如果是手動部署,300核的集群一旦拉起,第一到第五步手動配置的時間里,所有機器一直都是開啟狀態,也就是說,燒錢中。
更詳盡的涉云成本計算,可參考:幫助CXO解惑上云成本的迷思,看這篇就夠了
再看看我們的自動化部署:
在本實證中,fastone平臺在任務的不同階段采取不同的策略應對,除任務運行的7小時內有300核云資源滿負荷運作以外,在數據處理和結果數據上傳階段均只開啟了1-2臺機器,而其他準備過程不需要開啟機器。
很重要的一點是:任務完成后會及時下載結果并自動關機。

fastone的Auto-Scale功能可以自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。
用戶可根據自己需求,設置自動化調度集群規模上下限。
- 所有操作都是自動化完成,無需用戶干預;
- 在實際開機過程中,可能遇到云在某個可用區資源不足的情況,fastone會自動嘗試從別的區域開啟資源;
- 如果需要的資源確實不夠,又急需算力完成任務,用戶還可以從fastone界面選擇配置接近的實例類型來補充。

詳細分解手動模式 VS 自動部署,看這里:EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
任務和集群管理:
提交任務后,可以在監控界面中查看任務和集群運行情況。

實證場景二:云端線性擴展驗證
9600個用例
---------------------------------------------------------
云端300核 VS 3000核
Bladed應用具備線性擴展性。
當我們把自動化調度集群規模上限設為3000核,任務運行時間從7小時縮短到45分鐘,整體計算周期也從8小時縮短至1.75小時。

實證過程:

本實證中,單個任務運行時間為10-30分鐘,當有任務提前運行完成且數據下載完后,相應的機器會自動關閉,避免資源浪費。
實證小結
最后我們回顧一下實證目標:
1. Bladed Windows版本任務在云端能夠有效運行;
2. fastone平臺成功將大規模Bladed仿真任務的運算時間從4天縮短到1~7小時;
3. fastone平臺能夠提供靈活高效的數據傳輸方案;
4. fastone平臺能夠提供可靠的任務管理和監控。
除了Windows系統,我們還支持通過fastone平臺同時調度任務至本地和云上的Windows節點和Linux節點,滿足業務需求。同時,我們也支持SLURM/SGE/LSF等主流調度器,本次實證未曾涉及。
本次CAE行業Cloud HPC實證系列Vol.2就到這里了。
在下一期的實證中,我們將利用速石平臺,在混合云場景下調度集群運行CAE分析,使LS-DYNA模擬性能得到極大提升。
未來我們還會帶給大家更多領域的用云“真香”實證,請保持關注哦!
- END -
2分鐘自動開通,即刻獲得TOP500超級算力
點擊下圖立即體驗

2020年新版《六大云廠商資源價格對比工具包》
添加小F微信(ID: imfastone)獲取
你也許想了解具體的落地場景:
2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC領域年均復合增長率超21%
EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發未來
關于云端高性能計算平臺:
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
花費4小時5500美元,速石科技躋身全球超算TOP500