日本中文有码视频,男人桶进女人屁股,女人被弄到高潮叫床声音 http://www.youjiajingji.com/blog Thu, 09 May 2024 02:50:29 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.3 http://www.youjiajingji.com/blog/wp-content/uploads/2019/08/cropped-logo-32x32.png EDA云實證 Archives - 速石科技BLOG http://www.youjiajingji.com/blog 32 32 EDA云實證Vol.13:暴力堆機器之王——Calibre http://www.youjiajingji.com/blog/eda-calibre/ http://www.youjiajingji.com/blog/eda-calibre/#respond Wed, 28 Jun 2023 02:16:47 +0000 http://www.youjiajingji.com/blog/?p=5126 Siemens的Calibre是業內權威的版圖驗證軟件,被各大Foundry廠廣泛認可。用戶可以直接在Virtuoso界面集成Calibre接口,調用版圖驗證結果數據,使用起來極為方便。今天,我們就來聊聊這 …

The post EDA云實證Vol.13:暴力堆機器之王——Calibre appeared first on 速石科技BLOG.]]>

Siemens的Calibre是業內權威的版圖驗證軟件,被各大Foundry廠廣泛認可。用戶可以直接在Virtuoso界面集成Calibre接口,調用版圖驗證結果數據,使用起來極為方便。
今天,我們就來聊聊這款軟件。

版圖驗證是芯片設計中非常重要的一環,一共包括三個環節。
DRC(Design Rule Check):檢查版圖是否符合Foundry廠的制造工藝規則,確保芯片能被正確生產出來;
LVS(Layout Versus Schematic):版圖工程師需要將畫好的版圖與原理圖對比,確保兩者所有連接保持一致;
寄生參數提?。≒arasitic Extraction):將版圖中的寄生參數提取出來,在Virtuoso中反饋結果,前端工程師會進行后仿驗證,重新評估電路特性并進行修改,保證流片正確。

這三個環節分別由Calibre的DRC、LVS、PEX三種工具來完成。

Calibre任務典型特性
重內存,可拆分,適合暴力堆機器

Calibre任務有兩大特性:

1、重內存需求,2T或4T的超大型內存機器都有可能登場

版圖文件很大,需要處理的數據量非常大,但本身的邏輯判斷并不復雜,所以通常不剛需高主頻機型,但要求多核、大內存的機器。CPU與內存的比例通常能達到1:4或1:8,極端情況下這個比例會更高,2T或4T的超大型內存機器都有可能登場。

我們在下面兩篇文章里仔細盤過模擬&數字芯片設計全流程的業務場景、常用EDA工具、資源類型、算力需求、典型場景

芯片設計五部曲之一 | 聲光魔法師——模擬IC
芯片設計五部曲之二 | 圖靈藝術家——數字IC

2、可拆分,無關聯,適合暴力堆機器

我們在模擬這篇文里寫過版圖驗證就像是一個“大家來找茬“的游戲。
在運行任務的時候,Calibre會把版圖切分成相互沒有邏輯關系的塊狀分區,這些分區之間彼此沒有相關性,互不干擾,所以可以同時進行。
切得越細,同時檢查的人更多,效率就越高。

三體里的切法大家還記得吧,一字橫切。
而芯片只能豎著切,可以十字切法。橫切會影響到芯片層與層之間的連接關系。

暴力堆機器也是有技術含量的

1、 首先,要有光,你得有大內存的機器

我們的全球資源池可以根據用戶需求在全球范圍內調度海量云端異構資源。GPU、TPU、FPGA,要啥都有。

其中,FCC-B產品提供準動態資源池,擁有行業特需的大內存機型,具有較低的整體擁有成本。而且,可以擴展到FCC-E使用彈性資源。
總之,大內存的機器,沒有問題。

那么,萬一不是一直不夠,是偶爾不夠怎么辦呢?
我們有一個小技巧,專門應用于這種內存峰值場景

Swap,交換分區,就是在內存不夠的情況下,操作系統先把內存中暫時不用的數據,存到硬盤的交換空間,騰出內存來讓別的程序運行。
比如跑一組Calibre任務需要10小時,其中9個小時的內存使用量都在200G左右,只有1個小時達到了260G。

如果選擇256G內存的機型配置,任務必崩無疑。
但要是為了這1小時不到10G的內存溢出而全程使用512G的配置,成本翻倍,未免有點太不劃算了。
使用Swap交換分區就可以無縫填補這一空缺,非常匹配這種內存峰值場景。

Swap的具體使用案例,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

注意:此方法不適合長期使用,磁盤的速度和內存相比慢了好幾個數量級,如果不停讀寫 Swap,對系統整體性能有影響。

2、 怎么把這些機器組隊管理起來?

有了機器,下一步當然是要把它們利用起來。
Calibre默認支持單機多核并行跑任務,這意味著只要機器足夠大,就可以同時處理很多任務。
但是,當你的大機器不夠多,或者根本拿不到大機器的時候,就很苦惱了。

我們的方法是:將所有機器組成一個集群——多機多核的方式同時跑多個任務。

關于單機、單核、單任務、多任務、集群化、并行化進一步的定義與區別,可以看這篇:揭秘20000個VCS任務背后的“搬桌子”系列故事

集群自動化管理,少量大機器需要,大量小機器就更需要了。
為啥?

理由一,能方便地自動化運維整個集群
比如軟件安裝配置、資源監控、集群管理等工作,是需要IT一臺臺機器去逐一手動操作,還是鼠標點幾下就可以完成?

理由二,能快速方便地分配業務,提高資源利用率
比如,臨時需要將一批機器從團隊A劃撥給團隊B使用,有沒有什么辦法可以讓IT快速方便地進行配置?比如,因為資源使用的不透明和缺乏有序管理,會出現不同人對同一資源的爭搶,任務排隊等現象。同時,你會發現資源利用率還是不高。

3、怎么讓機器自動化干活,不用人操心?

自動化干活可太有必要了。
否則,那么多任務,那么多機器,需要多少雙手和眼睛才能忙得過來?

來,我們給你“手”和“眼睛”。

首先是我們的“手”——Auto-Scale功能
來看一下本地手動跑任務Auto-Scale自動化跑任務的區別:

基于我們自主研發的調度器——Fsched,Auto-Scale自動伸縮功能自動化創建集群,自動監控用戶提交的任務數量和資源需求,動態按需地開啟與關閉所需算力資源,做到分鐘級彈性伸縮,在提升效率的同時有效降低成本。

更多療效,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

有了“手”干活,還得有“眼睛”盯著防止出錯。
我們能多維度監控任務狀態,提供基于EDA任務層的監控、告警、數據統計分析功能與服務。

如果沒有這雙“眼睛”,可能出現哪些問題?戳這篇:【案例】95后占半壁江山的浙桂,如何在百家爭鳴中快人一步
未來我們還會有一篇文章專門討論EDA領域基于業務的監控功能,敬請期待哦~

你看,不僅可以自動化跑任務,還能時刻幫你盯著任務是否出錯。

來,我們小暴力一下

先說結論:

我們在單臺大機器多臺小機器組合場景下分別跑了同一組Calibre任務。

單臺大機器場景下,隨著核數的增加,任務耗時呈現明顯的線性下降關系,整體性能曲線非常貼近基準線(單機核數有上限,本次實證中,我們使用的最大單機為128核,并根據32核、64核、128核的耗時規律預估了256核單機的耗時數據,僅供參考)。

多臺小機器組合場景下,隨著機器數量的翻倍,任務耗時同樣線性下降,但在后期倍數關系上有所損耗,多機性能曲線略低于基準線和單機性能曲線。

實證過程:
1、使用fastone云平臺調度32核、64核、128核單機分別運行一組Calibre任務,耗時分別為14小時57分49秒、7小時30分28秒、3小時50分11秒;
2、按上條實證數據,預估使用fastone云平臺調度256核單機運行一組Calibre任務的耗時為1小時58分6秒;
3、使用fastone云平臺調度2、4、8臺32核機器分別運行一組Calibre任務,耗時分別7小時43分51秒、4小時6分14秒、2小時15分34秒。

還有大家關心的Intel第四代機器
我們也搞來跑了一下

在上一節中,我們使用的均為第三代英特爾至強可擴展處理器,而在2023年1月11日,英特爾正式推出了第四代至強可擴展處理器。
我們立馬搞來跑了一遍,為了對比參照,我們還拉上了第二代和第三代,并且把核數都按比例換算為48核。

實證過程:
1、使用fastone云平臺調度48核第二代英特爾處理器運行一組Calibre任務,耗時10小時46分26秒;
2、使用fastone云平臺調度48核第三代英特爾處理器運行一組Calibre任務,耗時9小時56分13秒,相比第二代提升7.77%;
3、使用fastone云平臺調度48核第四代英特爾處理器運行一組Calibre任務,耗時8小時18分43秒,相比第三代提升16.35%,比第二代提升22.85%。

可以看到每一代都有提升,且型號越新,提升幅度越大,三代比二代提升了7.77%,四代比三代提升了16.35%。
而在價格上,目前四代和三代的類似機型換算一下,幾乎是相同的。

實證小結

1、Calibre DRC/LVS/PEX不剛需高主頻機型,但要求多核、大內存的機器,任務可拆分,適合暴力堆機器;
2、fastone云平臺的全球動態資源池、集群自動化管理能力、自動化跑任務并監控告警的功能可完美匹配Calibre的需求;
3、隨著計算資源的提升,Calibre的任務耗時呈現明顯的線性關系,其中單機整體性能曲線非常貼近基準線,多機效果后期會略有折損;
4、最新型號的處理器可以大幅提升Calibre的效率,可根據項目周期與實際預算綜合考量機型配置。

本次EDA云實證系列Vol.13就到這里了。
下一期,我們聊ADS,也可能是ALPS。看心情~~~

關于fastone云平臺在各種EDA應用上的表現,可以點擊以下應用名稱查看:
HSPICE │ OPC │ VCS │ Virtuoso
速石科技芯片設計五部曲,前三部先睹為快:
模擬IC 數字IC 算法仿真


- END -


我們有個IC設計研發云平臺
IC設計全生命周期一站式覆蓋
調度器Fsched國產化替代、專業IT-CAD服務
100+行業客戶落地實踐
支持海內外多地協同研發與辦公

多層安全框架層層保障

掃碼免費試用,送200元體驗金,入股不虧~

更多EDA電子書
歡迎掃碼關注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?

5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?


關于為應用定義的云平臺:
最強省錢攻略——IC設計公司老板必讀
芯片設計五部曲之三 | 戰略規劃家——算法仿真
芯片設計五部曲之二 | 圖靈藝術家——數字IC
芯片設計五部曲之一 | 聲光魔法師——模擬IC
【案例】速石X騰訊云X燧原:芯片設計“存算分離”混合云實踐
ICCAD2022】首次公開亮相!國產調度器Fsched,半導體生態1.0,上百家行業用戶最佳實踐
解密一顆芯片設計的全生命周期算力需求
居家辦公=停工?nonono,移動式EDA芯片設計,帶你效率起飛
缺人!缺錢!趕時間!初創IC設計公司如何“絕地求生”?
續集來了:上回那個“吃雞”成功的IC人后來發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE?云合作伙伴
EDA云平臺49問
億萬打工人的夢:16萬個CPU隨你用
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

The post EDA云實證Vol.13:暴力堆機器之王——Calibre appeared first on 速石科技BLOG.]]>
http://www.youjiajingji.com/blog/eda-calibre/feed/ 0
EDA云實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? http://www.youjiajingji.com/blog/vol10auto-scale/ Wed, 11 Aug 2021 11:07:03 +0000 http://www.youjiajingji.com/blog/?p=2233 這是我們EDA云實證的第四期。 本期實證的主角是——Virtuoso。 半導體行業中使用范圍最廣的EDA應用之一。 1991年Virtuoso技術正式發布,最初作為掩模設計師的版圖工具,是Opus平臺的一部 …

The post EDA云實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? appeared first on 速石科技BLOG.]]>
這是我們EDA云實證的第四期。

本期實證的主角是——Virtuoso。

半導體行業中使用范圍最廣的EDA應用之一。

1991年Virtuoso技術正式發布,最初作為掩模設計師的版圖工具,是Opus平臺的一部分,主要功能包括電路設計與仿真、版圖設計、設計驗證,以及模擬/數字混合設計等。

近30年來,Virtuoso產品已和最初有很大不同,但其核心仍然是版圖編輯器。

應用工具層面。Cadence一直致力于優化EDA應用算法和性能,提高自動化水平,將Virtuoso逐漸升級和擴展為集合多項新技術的系統設計平臺。

從應用到云資源層,就由我們來發揮了。

我們針對EDA應用云原生適配,為IC研發設計人員提供一整套即開即用,快速上手的IC研發設計環境,系統性大幅提升研發效率。

我們到底是怎么做到的?

研發效率具體提高在哪些方面?

什么是即開即用的IC研發設計環境?好用嗎?改變原來習慣嗎?

以下是今天的正文:

用戶需求

某芯片設計公司做數?;旌闲酒洺J褂肰irtuoso調用Spectre完成仿真任務,需要趕MPW shuttle,即將面臨多項目同時進行、項目關鍵時間節點相同的困境。

公司CEO并不想單純靠增加本地機器來解決目前問題,一方面考慮到會對企業造成比較大的現金流壓力,另一方面公司并沒有專門的IT和CAD團隊。他對能不能用云解決現有問題十分重視,也直接和云廠商交流過,對我們的云上自動化和Auto-Scale功能很感興趣。

實證目標

1、fastone平臺是否支持在云端使用Virtuoso運行仿真任務?
2、通過平臺使用Virtuoso和本地差別大嗎?
3、Auto-Scale自動化伸縮具體怎么實現的?
4、Slurm調度器行不行?

實證參數

平臺:fastone企業版產品

應用:Cadence Virtuoso

適用場景:數?;旌想娐吩O計及仿真

云端硬件配置:Spectre仿真主要需要的是計算密集型CPU,所以平臺推薦的是計算優化型云端實例

調度器:Slurm(關于調度器,下文會詳細講解)

技術架構圖:

auto-scale

一整套即開即用的IC研發設計環境
操作像吃了德芙般順滑

用戶對于在本地單機使用Virtuoso運行仿真任務,已經非常熟悉。而對于在云上跑,用戶依然有以下疑問:

什么叫一整套?從哪一步到哪一步?

云上使用Virtuoso,操作方式會改變嗎?會不會很麻煩?

我們為用戶提供的產品,從登錄桌面、打開應用、配置仿真、提交任務、自動上云開機運行任務并自動關機、查看結果進行調試……用戶所需要的操作與本地幾乎完全一致,每一步只需在平臺上使用鼠標簡單點選即可完成。

virtueso

我們說的“一整套”,就是這個意思。

至于操作方式會不會改變?

拿訪問集群舉例。用戶訪問集群,既可以通過命令行,也可以通過WebVNC圖形界面方式直接訪問。


手動模式訪問集群,一共有五步,往往還需要請IT先配置環境 

1、在云端開一臺機器;
2、在云端安裝VNC服務并進行配置,有幾個用戶使用就需要配置幾個賬號;
3、在本地安裝VNC服務并進行配置;
4、在云端開啟VNC服務;5、用戶使用各自賬號登錄客戶端VNC訪問云端。


我們為所有用戶免費提供WebVNC功能,自動化創建到訪問集群
1、通過Web瀏覽器登錄fastone平臺;
2、在Web界面新建集群、配置資源;
3、在已創建的集群點擊WebVNC遠程桌面圖標(同時提供WebSSH遠程命令行功能);
4、跳轉到虛擬桌面,可在該桌面中操作Virtuoso。

虛擬桌面,virtuoso

我們還提供了統一的用戶認證,不同用戶可以直接訪問VNC,無需重新配置。

這種操作方式給用戶提供了熟悉的操作環境,使其能夠快速地遠程自動化訪問集群,避免了大量的手動部署,使用體驗更好。 

在數據傳輸上,我們同樣為用戶提供了不改變操作習慣的DM工具,用戶無需在多套認證系統之間切換,使用統一的身份認證即可傳輸數據,并自動關聯云端集群進行計算,具體看這里《CAE云實證Vol.8:LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置

當然,好處遠遠不止這些。

Auto-Scale自動伸縮就像仙女棒 變大變小變漂亮

fastone通過Auto-Scale功能實現自動化創建集群的過程,可以實現自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。 

怎么讓仙女棒發揮作用? 

先來設置一下:

auto-scale

下圖就是開啟Auto-Scale功能后,用戶某項目一周之內所調用云端計算資源的動態情況。

其中橙色曲線為OD實例的使用狀況,紅色曲線為SPOT的使用狀況。

OD:On-Demand,按需實例。針對短期彈性需求,按小時計費,但價格比較高。

SPOT:可被搶占實例,又稱競價實例。價格最低可達到按需實例價格的10%,相當于秒殺,手快有手慢無,隨時可能被搶占中斷,需要有一定的技術實力才能使用。

spot,云端資源計算

兩個重點:
第一、從圖中可以看到整個階段算力波峰為約3500核,而波谷只有650核左右。用戶使用資源是存在明顯的波峰波谷周期的。Auto-Scale功能可以根據任務運算情況動態開啟云端資源,并在波峰過去后自動關閉,讓資源的使用隨著用戶的需求自動擴張及縮小,最大程度匹配任務需求。
當然,用戶也可以選擇自己對最大最小值進行設置,加以限制。


這一方面節約了用戶成本,不需要時刻保持最高峰使用資源;

另一方面也最大限度保證了任務最大效率運行。
比如跑100個corner的仿真,以前只能同時跑10個,要花10天,現在可以同時跑100個,只要1天就可以完成。這兩種方式成本相同,為用戶節約出了顯著的時間差,大大縮短了任務運行周期,提升了研發效率。

第二、我們的Auto-Scale功能支持對不同計費模式(OD、SPOT)實例進行自動伸縮,OD按需實例價格通常為SPOT實例的3-10倍。

Auto-Scale功能可以根據不同的用戶策略,比如成本最優還是時間優先,自動化跨區、跨類型為用戶調度云資源,完成計算任務。

至于不同策略具體怎么落地執行?相比時間優先策略,成本優先怎么做到降低成本最多達67%-90%?在這篇實證《生信云實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》里體現得十分明顯。

autodock vina

不僅限于運行任務期間,其實早在創建集群的時候,自動化Auto-Scale過程就已經開始了。在這篇Bladed實證里,fastone平臺在任務的不同階段采取不同的策略應對,除任務運行時間內全部云資源滿負荷運作以外,在數據處理和結果數據上傳階段均只開啟了1-2臺機器,而其他準備過程不需要開啟機器。

數據上傳,數據處理,

習慣了LSF/SGESlurm調度器到底行不行?

為什么選擇Slurm調度器?


Virtuoso應用原生支持的調度器有LSF和SGE。LSF作為商業軟件,由IBM提供商業支持,是半導體行業最常用的調度器軟件。曾經衍生出的開源版Openlava在2016后IBM發起的版權訴訟之后,2018年正式被禁用。

SGE商業版在去年已經隨Univa被Altair收購。類似的,免費開源版已經長期無維護和更新,也存在版權風險。
LSF和SGE均按核時收費,價格不菲,如果在云端大規模使用,價格驚人,而且都需要購買單獨的Resource Connector或Navops Launch產品才能支持在云上使用。
Slurm作為調度器四大流派里唯一的純開源派,就不受規模和費用的限制了。而且Slurm擁有容錯率高、支持異構資源、高度可擴展等優點,每秒可提交超過1000個任務,且由于是開放框架,高度可配置,擁有超過100種插件,因此適用性相當強。所以我們優先選擇Slurm。


關于這四家主流調度器:LSF/SGE/Slurm/PBS以及它們的9個演化版本,可以看這篇文章《億萬打工人的夢:16萬個CPU隨你用》,我們進行了整體梳理和盤點,尤其是對云的支持方面劃了重點。

我們是怎么實現的?
答案是:SGE Wrapper。

Wrapper是什么呢?可以看看下圖,可以看到同樣的命令在不同的調度器之間有不同的實現方式:

調度器,slurm

而Wrapper就像不同調度器命令語言中的翻譯器,我們相當于通過這個翻譯器,把Slurm語言翻譯成了Virtuoso聽得懂的SGE語言,于是應用就能正常運行啦。

Virtuoso

關于不同調度器的使用效果。我們曾經在Proteus?OPC實證場景四中分別使用SGE和Slurm在云端和本地分別調度2000核/5000核運行相同OPC任務。

調度器,sge

結論是:對于計算結果無影響。 

關于調度器如何在多機器多任務的情況下提升資源利用率,并進行自動化管理,可以看這篇《EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事》 

任務監控還能搞出省錢大招?

根據我們對整個任務消耗資源狀態的監控,發現運算該組任務所使用的內存大部分時間在5G以下,但會有極短的一段時間(不超過半小時)達到17.5G。

任務監控,任務運算

從上圖中可以看到,Swap剩余量在短時間內從8.6G跌到了7.1G,隨后很快回升到了8.38G,也就是說如果沒有Swap,運行內存的瞬時缺口約為1.5G,勢必造成任務失敗。

Swap,交換分區,就是在內存不夠的情況下,操作系統先把內存中暫時不用的數據,存到硬盤的交換空間,騰出內存來讓別的程序運行。

如果配置16G的內存,任務最后會因此失敗。
但如果選擇配置32G內存,著實有點浪費,畢竟也就超了一點點。
而同等CPU資源下,配備32G內存的價格普遍要比16G貴1.4-1.9倍

cpu資源

正是由于完備的監控和任務性能評估機制,我們建議用戶在云端運算時配備16G內存,同時使用Swap功能渡過這段內存波峰,以達到最高的性價比。

實證小結

1、fastone平臺支持在云端使用Virtuoso調用Spectre運行仿真任務;

2、用戶使用這套研發設計環境能閉環完成Virtuoso運行任務,且基本不改變用戶習慣;

3、fastone平臺的云上自動化模式和Auto-Scale功能能有效幫用戶縮短研發周期,同時降低使用成本;

4、Slurm調度器不會影響計算結果,是更具性價比及擴展性的選擇;

5、fastone平臺擁有完備的監控及任務性能評估機制。

本次EDA實證系列Vol.10就到這里了。下一期我們聊HFSS。

關于fastone云平臺在不同應用上的具體表現,可以點擊以下應用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE


- END -


我們有個為應用定義的EDA云平臺
集成多種EDA應用,大量任務多節點并行
應對短時間爆發性需求,連網即用跑任務快,
原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,
無需代碼支持高級用戶直接在云端創建集群

掃碼免費試用,送200元體驗金,入股不虧~

更多電子書歡迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?

5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關于為應用定義的云平臺:

AI太笨了……暫時
速石科技成三星Foundry國內首家SAFE?云合作伙伴
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”,竟然是Ta……
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500

為應用定義的云平臺 fastone
The post EDA云實證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? appeared first on 速石科技BLOG.]]>
EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事 http://www.youjiajingji.com/blog/eda-synopsys-vcs/ Fri, 26 Mar 2021 08:52:58 +0000 http://www.youjiajingji.com/blog/?p=1623 新思科技(Synopsys)家的VCS,在半導體行業使用率極高,背景我們就不多說了。 對經常跑EDA或其他算力密集型任務的用戶來說,在深度掌握本行業業務知識及熟練運用常見EDA工具以外,通 …

The post EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事 appeared first on 速石科技BLOG.]]>
新思科技(Synopsys)家的VCS,在半導體行業使用率極高,背景我們就不多說了。

對經常跑EDA或其他算力密集型任務的用戶來說,在深度掌握本行業業務知識及熟練運用常見EDA工具以外,通常還需要在技能樹上點上一門技能——IT,就是怎么(順利)使用機器把手里的任務給(高效)跑完。

他們的IT技能升級打怪之旅一般分為三個階段:

第一階段:單機單CPU核,單任務
第二階段:單機多CPU核,多任務
第三階段:多機多CPU核,多任務

據我們觀察,很多用戶都已經處在第二階段。
但是,依然有部分用戶尚處在第一階段,比如我們今天的實證主角。

我們之前的六篇實證都直接一步到位——上云后。

HSPICE │ Bladed │Vina │OPC │Fluent │Amber

今天我們看看上云前的幕后系列,又名:搬桌子的故事

用戶需求

某IC設計公司運行EDA仿真前端設計和后端設計的分析任務,進行機電一體芯片技術的開發?,F有機房設備較為老舊,共有8臺單機,需要同時服務數字和模擬兩個研發部門。
隨著公司業務的發展,相關部門負責人幾乎同時反饋業務峰值時計算資源嚴重不足,排隊現象嚴重。

實證目標

1、fastone平臺是否能有效提升VCS任務運行效率?
2、fastone平臺是否能有效提升本地機器資源利用率?
3、fastone平臺是否支持大規模VCS任務自動化穩定運行?

實證參數

平臺:fastone企業版產品
應用:Synopsys VCS
適用場景:數?;旌想娐贩抡?br>系統:Red Hat Enterprise release 5.7(Tikanga)

實證結果

我們先來看看用戶自己跑20000個任務和我們來跑的效果:

大規模任務驗證 20000個任務

我們將本地機房的8臺單機構建為一個統一管理的集群,運行20000個VCS任務的時間是用戶自己所需時間的約1/50。

本地機房8臺服務器構建為一個計算集群,運行20000個VCS任務

實證過程:

1、用戶使用一臺單機C1運行20000個VCS任務,耗時40485分鐘;
2、將本地機房的所有8臺單機構建為集群A,使用集群A運行20000個VCS任務,耗時809分鐘。

VCS仿真計算任務,1臺服務器單機單核運算和集群并行計算的運算效率對比

用戶按常理推斷,本地機房共有8臺單機,將所有機器一起來運行大規模VCS任務的時間大概應該是使用一臺機器機耗時的6-7倍(理想值為8倍,但由于存在長尾任務,存在一定差異)。

但實證中50倍的提升大大超出了他們的預期。
中間發生了什么? 

回到我們開頭說的三個階段——

第一階段:單機單CPU核,單任務

單任務狀態下的單機單核,就是一個任務只在一臺機器上的一個CPU上跑。不管這臺機器其實有幾個CPU,反正就只用一個。資源利用率極其低下,可以說是暴殄天物。

再細一點,這里其實還有個1.5階段:單機多CPU核,單任務。效果類似。

假設給你幾個人(CPU核),完成一個叫做“搬桌子”的任務。
單任務的處理方式分為單進程和多進程: 

單進程的處理方式是:不管你有幾個人,同一時間永遠只有1個人在搬整張桌子,其他人在圍觀。

VCS仿真計算任務,1臺服務器單機單核運算

多進程的處理方式是:
先拆桌子。比如把一張桌子拆成4個零部件,分給4個人來同時搬,有的搬桌子腿,有的搬桌面等等,搬得最慢的人決定任務的完成速度。
但是,哪怕你有8個人,一次也只有4個人在搬。
搬完一張桌子再搬下一張,依次往復。

VCS仿真計算任務,1臺服務器運算,任務拆解

補充一個背景信息:2009年4月,新思科技就發布了VCS的多核技術,通過將耗時的計算處理動態地分配至多個CPU內核來突破芯片驗證的瓶頸,從而提高驗證的速度。
也就是說,應用十多年前就支持單任務多進程了,現在這個技術的名字叫Fine-Grained Parallelism,FGP。

VCS多核技術,Fine-Grained Parallelism,FGP

第二階段:單機多CPU核,多任務

多任務狀態下的單機多核,就是多個任務能同時在一臺機器上的數個CPU上跑,受制于單臺機器的最大核數,目前最多也就96個核了。 

我們繼續講“搬桌子”。

上一階段的多進程處理方式,存在一個明顯的問題。哪怕你有8個人,一次也只有4個人在搬。搬完一張桌子再搬下一張。
這就很不合理了。 

于是我們在此基礎上改進了一下。
在你有8個人的情況下,一張桌子4個人搬,我們可以同時搬兩張桌子啦。這樣可以明顯加快任務的完成速度。
但是,單臺機器的總CPU核數就是上限了。

VCS仿真計算任務,1臺服務器單機計算

當然這一階段還是會存在一些問題,會出現有人突然跳出來跟你搶人或者你也搞不清楚哪些人現在有空來幫你。

因為資源使用的不透明和缺乏有序管理,會出現不同人對同一資源的爭搶,任務排隊等現象。同時,你會發現資源利用率還是不高。
不少用戶已經處在這一階段。 

我們看看從第一階段到第二階段的實際VCS驗證效果:

應用并行化驗證 400個任務

對VCS進行多任務并行化處理后,一臺單機運行相同VCS任務的時間縮短為原先的15%-16%,極大提升了運行效率。

實證過程:
1、使用一臺單機C1(8核)運行400個VCS任務,耗時806分鐘;
2、使用一臺單機C2(8核)運行400個VCS任務,耗時793分鐘;
3、對VCS應用進行多任務并行化處理后,使用一臺單機C1(8核)運行400個VCS任務,耗時130分鐘;
4、對VCS應用進行多任務并行化處理后,使用一臺單機C2(8核)運行400個VCS任務,耗時122分鐘。

Synopsys VCS任務運行,2臺8核服務器運算效率對比-多任務并行化處理

第三階段:多機多CPU核,多任務

多任務狀態下的多機多核,就是多個任務能同時在數臺機器的數個CPU上跑,這個我們稱之為集群化管理,一般都需要有調度器的參與。

關于調度器的相關知識,看這里:億萬打工人的夢:16萬個CPU隨你用

前面講到我們已經可以同時安排搬兩張桌子啦。但其實,如果你的機器足夠多,人(CPU核)足夠多,你完全可以同時搬更多的桌子。

VCS仿真計算,多任務并行計算,大規模集群計算需要調度器

這個時候,必然要面臨一個如何調兵遣將的問題。

這么多機器,這么多任務,怎么順利一一配置、啟動、關閉,提高整體資源利用率,最好還能自動化管理等等。這就需要一點技術了。

至于云上資源的大規模動態化調度和管理,要更加高階一點。

在《生信云實證Vol.3:提速2920倍!用AutoDockVina對接2800萬個分子》中,我們最多調用了10萬核CPU資源對整個VS數據庫進行虛擬篩選。

Synopsys VCS計算任務,云端大規模計算集群調度與管理

當集群達到如此規模之后,手動管理是不可想象的。
而且云上資源跟本地不同,往往是個動態使用的過程,有時候甚至要搶
更不用說還要考慮不同用戶在不同階段的策略和需求。

我們看看從第二階段到第三階段的實際VCS驗證效果:

集群化驗證 400個任務

由2臺單機構建的集群運行相同VCS任務的時間為單機的約60%,并實現了自動化資源管理。

實證過程:
1、使用一臺單機C1(8核)運行400個VCS任務,耗時130分鐘;
2、使用一臺單機C2(8核)運行400個VCS任務,耗時122分鐘;
3、將C1和C2構建為集群B,使用集群B運行400個VCS任務,耗時75分鐘。

Synopsys VCS任務運行,2臺8核服務器集群

 最后,我們回顧一下,我們到底做了哪些事: 

應用并行化:從單任務到多任務
fastone幫助用戶實現了應用并行化,可以充分使用一臺單機上的全部CPU資源,確保了最大的計算效率。 

資源集群化:從單機到集群
fastone幫助用戶實現了集群化管理,讓多臺機器能夠并行化運行VCS任務,實現了數據、應用、資源的統一化管理。 

規模自動化:從400個任務到20000個任務
用戶希望在面臨大規模VCS任務時,上述方案的穩定性能夠得到充分驗證。
fastone幫助用戶充分驗證了20000個VCS任務場景下,能夠自動化規?;卣{度資源高效完成任務,滿足用戶需求。 

到現在為止,我們成功幫助用戶從單機單任務單進程運行的階段大幅度跨越到了大規模任務自動化集群化運行階段。
萬事俱備,下一步,上云。

我們的前兩篇EDA云實證可以了解一下:
從30天到17小時,如何讓HSPICE仿真效率提升42倍?》
5000核大規模OPC上云,效率提升53倍

本次EDA行業云實證系列Vol.7就到這里了。
下一期的EDA云實證,我們聊Virtuoso。 

請保持關注哦!  

- END -


我們有個為應用定義的云平臺
集成多種應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群

掃碼免費試用,送200元體驗金,入股不虧~

云計算平臺免費試用

更多電子書歡
迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:

155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

你可能感興趣:

2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析
【2021】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA云平臺49問
國內超算發展近40年,終于遇到了一個像樣的對手

幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥
花費4小時5500美元,速石科技躋身全球超算TOP500

為應用定義的云-行業軟件上云-云原生的概念
The post EDA云實證Vol.7:揭秘20000個VCS任務背后的“搬桌子”系列故事 appeared first on 速石科技BLOG.]]>
EDA云實證Vol.4:5000核大規模OPC上云,效率提升53倍 http://www.youjiajingji.com/blog/eda-opc-20201118/ Wed, 18 Nov 2020 06:52:19 +0000 http://www.youjiajingji.com/blog/?p=896 上一篇《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?》 里,我們幫一家Design House提高了使用HSPICE進行芯片設計仿真的效率。 而設計好的集成電路圖案需要通過 …

The post EDA云實證Vol.4:5000核大規模OPC上云,效率提升53倍 appeared first on 速石科技BLOG.]]>
上一篇《EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍? 里,我們幫一家Design House提高了使用HSPICE進行芯片設計仿真的效率

而設計好的集成電路圖案需要通過光刻機轉印到晶圓上才能完成制造,這就是芯片制造中最重要的一個步驟——光刻。

在先進工藝特別是 FinFET 工藝中,計算光刻已經成為光刻工藝研發的核心。

光學鄰近效應校正(Optical Proximity Correction,OPC)屬于計算光刻技術的一種,主要是利用軟件和高性能計算,來模擬仿真光刻過程中的光學和化學過程,通過仿真建立精確的計算模型,然后調整圖形的邊沿不斷仿真迭代,直到逼近理想的圖形,最終加速工藝研發周期的目標。

OPC仿真建模,光學鄰近效應校正,Optical Proximity Correction示意圖

這一過程對計算資源的需求隨著模型的精確度呈指數級別增長。

舉個例子,一款7nm芯片需要高達100層的光罩,每層光罩數據都需要使用EDA工具進行OPC的過程。整個過程對硬件算力要求很高,EDA工具需要運行在幾千核的服務器CPU上,動輒就是幾十萬核時。

我們通過今天的實證驗證了如何在不同場景下,大幅幫用戶縮短OPC運行時間,同時確保云端和本地計算結果的完全一致性和計算性能的穩定性。

這次實證涉及的場景很細致,既有License服務器的配置地點,又有不同調度器,還一一對云上計算結果和本地做了數據對比,使用的計算資源數量跨度也很大,從80-5000核不等,非常細致,極具參考性。

實證背景信息

A社是一家大型IC設計公司,隨著近年業務規模不斷擴大,OPC相關計算需求增大。
但A社本地機房空間不足,原先傳統托管IDC模式也難以滿足彈性需求,導致大量任務出現排隊,無法及時輸出成果,拖慢了整個IC研發進程。
公司希望在本地建設和IDC托管之外,尋求具備彈性的大規模算力來滿足業務高峰期的需求,來滿足業務擴展需求。

實證目標

1、OPC任務能否在云端有效運行?
2、fastone平臺能否滿足業務彈性資源需求,有效減少OPC運行時間?
3、License Server配置在本地和云端對計算性能/一致性/穩定性是否有影響?
4、fastone能否支持不同調度器SGE/Slurm?使用不同調度器對計算性能/一致性/穩定性是否有影響?
5、fastone平臺的云端輸出計算結果是否與本地完全一致?

實證參數

平臺:
fastone企業版產品

應用:
Synopsys Proteus?OPC

適用場景:
在提交設計到制造之前,模擬仿真光學鄰近效應校正,從理論上探索增大最小可分辨特征尺寸(Minimum Resolvable Feature size,MRF)和工藝窗口(Process Window,PW)的途徑,指導工藝參數的優化。

License配置:
本次實證分別驗證了License Server部署在本地和云端的表現。

云端硬件配置:
本次實證涉及的考察因素比較多,尤其是本地和云上進行了同步一對一對比。用戶希望和本地硬件配置盡量保持一致,有更好的可比性,所以選擇了跟本地接近的內存密集型實例機型。

調度器:
本次實證同時采用了SGE和Slurm兩種調度器。

技術架構圖:

fastone EDA云平臺,OPC仿真計算,混合云技術架構圖

兩個紅框表示EDA License Server分別部署在本地或云端。

應A社對于數據保密的要求,
本實證所有數據均經過處理。

實證場景一

5000核大規模OPC業務上云驗證

結論:
1、云端調度5000核計算資源運算一組OPC任務,耗時為80核計算資源運算耗時的0.019倍,相當于從一個月縮短到13.8小時;
2、公有云廠商大內存型資源數量不算多,單個區域想要一次性獲取高達5000核的內存型實例很難實現。fastone平臺的Auto-Scale功能可在較短時間內,根據用戶需求,自動化跨區調度到大量目標類型計算資源。

實證過程:
1、云端調度80核計算資源運算一組任務,耗時為x;
2、云端調度5000核計算資源運算一組任務,耗時為0.019x。

云端調度80核與5000核的計算耗時

關于通過fastone平臺的Auto-Scale功能基于用戶時間優先策略和成本優先策略自動調度本區域及其他區域的目標類型或相似類型實例資源,這篇文章《生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》里有詳細說明。

fastone平臺Auto-Scale智能調度系統,實例資源自動調度

實證場景二

License Server配置在本地VS云端
云上VS本地:計算性能/一致性/穩定性驗證

結論:
1、License Server部署在本地和云端對于計算結果無影響;
2、云端和本地分別運行相同OPC任務:
計算性能:云上計算時間均優于本地;
一致性:云端和本地計算結果均完全一致;
穩定性:集群運行均無中斷,GUI啟動均正常。

License Server部署在本地和云端OPC仿真計算結果無影響

實證過程:
1、License Server部署在本地,云上調度80/240/480/1600/3200/5000核計算資源運行OPC任務,本地同步運行80/240/480/1600/3200/5000核相同OPC任務;
2、License Server部署在云端,云上調度80/240/480/1600/3200/5000核計算資源運行OPC任務,本地同步運行80/240/480/1600/3200/5000核相同OPC任務。

實證場景三

License Server配置在本地VS云端
云端擴展性驗證

結論一:
License Server配置在本地,使用云端資源運算OPC任務,性能隨資源增加線性提升。

License Server在本地配置,OPC計算任務上云

注:參考值分別為:80核-1、240核-0.3333、480核-0.1667、1600核-0.05、3200核-0.025,5000核-0.016。

實證過程:
將License Server部署在本地:
1、云端調度80核計算資源運算Case1,耗時為x;
2、云端調度240核計算資源運算Case1,耗時為0.3375x;
3、云端調度480核計算資源運算Case1,耗時為0.1679x;
4、云端調度1600核計算資源運算Case1,耗時為0.0518x;
5、云端調度3200核計算資源運算Case1,耗時為0.0285x;
6、云端調度5000核計算資源運算Case1,耗時為0.0216x;
7、云端調度80核計算資源運算Case2,耗時為y;
8、云端調度240核計算資源運算Case2,耗時為0.3389y;
9、云端調度480核計算資源運算Case2,耗時為0.1682y;
10、云端調度1600核計算資源運算Case2,耗時為0.0529y;
11、云端調度3200核計算資源運算Case2,耗時為0.0300y;
12、云端調度5000核計算資源運算Case2,耗時為0.0230y。

結論二:
License Server配置在云端,使用云端資源運算OPC任務,性能隨資源增加線性提升。

License Server在云端配置,OPC計算任務在云上跑

注:參考值分別為:80核-1、240核-0.3333、480核-0.1667、1600核-0.05、3200核-0.025,5000核-0.016。

實證過程:
將License Server部署在云端:
1、云端調度80核計算資源運算Case1,耗時為x;
2、云端調度240核計算資源運算Case1,耗時為0.3346x;
3、云端調度480核計算資源運算Case1,耗時為0.1672x;
4、云端調度1600核計算資源運算Case1,耗時為0.0515x;
5、云端調度3200核計算資源運算Case1,耗時為0.0270x;
6、云端調度5000核計算資源運算Case1,耗時為0.0191x;
7、云端調度80核計算資源運算Case2,耗時為y;
8、云端調度240核計算資源運算Case2,耗時為0.3390y;
9、云端調度480核計算資源運算Case2,耗時為0.1691y;
10、云端調度1600核計算資源運算Case2,耗時為0.0588y;
11、云端調度3200核計算資源運算Case2,耗時為0.0329y;
12、云端調度5000核計算資源運算Case2,耗時為0.0262y。

實證場景四

不同調度器驗證:SGE VS Slurm
云端2000核/5000核

結論:
1、分別使用SGE和Slurm調度云端2000核/5000核運行相同OPC任務,對于計算結果無影響;
2、云端和本地使用不同調度器分別運行相同OPC任務:
計算性能:云上計算時間均優于本地;
一致性:云端和本地計算結果均完全一致;
穩定性:集群運行均無中斷,GUI啟動均正常。

OPC仿真計算-不同核數不同調度器的性能表現

實證過程:
1、使用SGE調度器,云上調度2000核計算資源運算一組OPC任務,本地同步運行2000核相同OPC任務;
2、使用SGE調度器,云上調度5000核計算資源運算一組OPC任務,本地同步運行5000核相同OPC任務;
3、使用Slurm調度器,云上調度2000核計算資源運算一組OPC任務,本地同步運行2000核相同OPC任務;
4、使用Slurm調度器,云上調度5000核計算資源運算一組OPC任務,本地同步運行5000核相同OPC任務。

這篇文章《億萬打工人的夢:16萬個CPU隨你用》里,我們基于這四家主流調度器:LSF/SGE/Slurm/PBS以及它們的9個演化版本進行了梳理和盤點,尤其是對云的支持方面劃了重點??梢粤私庖幌?。

實證小結

1、Proteus?OPC任務在云端能有效運行;
2、fastone平臺能夠大幅度縮短OPC任務運行時間;
3、License Server配置在本地和云端,對計算性能/一致性/穩定性沒有影響;
4、fastone平臺使用不同調度器SGE/Slurm,對計算性能/一致性/穩定性沒有影響;
5、云端和本地運行相同OPC任務,對計算結果沒有影響。

本次EDA行業Cloud HPC實證系列Vol.4就到這里了。

在下一期實證中,我們將對Virtuoso使用速石平臺進行驗證。請保持關注哦!  

- END -

我們有個【在線體驗版】,掃碼即可注冊,2分鐘自動開通。即刻就能獲得TOP500這種超級算力,你就不想試一下?你想要的我們可能都有,還送300元體驗金,入股不虧~

掃碼免費試用

速石科技-SaaS計算云平臺試用

《半導體行業云解決方案白皮書》
有興趣可以掃碼添加小F微信(ID: imfastone)獲取

半導體行業云解決方案白皮書


你也許想了解具體的落地場景:

生信云實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子

CAE云實證Vol.2:從4天到1.75小時,如何讓Bladed仿真效率提升55倍?

EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?

15小時虛擬篩選10億分子,《Nature》+HMS驗證云端新藥研發未來


關于云端高性能計算平臺:

國內超算發展近40年,終于遇到了一個像樣的對手

幫助CXO解惑上云成本的迷思,看這篇就夠了

靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥

花費4小時5500美元,速石科技躋身全球超算TOP500


The post EDA云實證Vol.4:5000核大規模OPC上云,效率提升53倍 appeared first on 速石科技BLOG.]]>
EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍? http://www.youjiajingji.com/blog/eda-case-hspice-20200825/ http://www.youjiajingji.com/blog/eda-case-hspice-20200825/#respond Tue, 25 Aug 2020 11:25:43 +0000 http://blog.www.youjiajingji.com/?p=581 作為最早的電子設計自動化軟件,我們的EDA云實證系列從SPICE開始,再合適不過。 在它出現之前,人們分析電路,用的是紙筆或者搭電路板。隨著電路規模增大,手工明顯跟不上。 于是,197 …

The post EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍? appeared first on 速石科技BLOG.]]>
作為最早的電子設計自動化軟件,我們的EDA云實證系列從SPICE開始,再合適不過。

在它出現之前,人們分析電路,用的是紙筆或者搭電路板。隨著電路規模增大,手工明顯跟不上。

于是,1971年,SPICE誕生了。全稱“Simulation Program with Integrates Circuit Emphasis"。

H-SPICE是隨著產業環境及電路設計技術的發展與升級,以“SPICE2”為基礎加以改進而成的商業軟件產品,現在屬于Synopsys。

既然有了新的計算機輔助工具,那問題就來了:

怎么才能跑得更快一點?

怎么才能運行更大規模的集成電路?

第一個答案是算法改進。這屬于數學領域,很難。

第二個答案是摩爾定律。從上世紀70年代初到如今,SPICE從只能仿真十幾個元器件到今天可以仿真上千萬個元器件的電路。但已經幾十年沒有太大的變化了。

第三個答案是計算架構升級,從單核到多核,單線程到多線程。

第四個答案是Cloud HPC云端高性能計算。談概念過于抽象,我們今天拿實證說話。

實證背景信息

用戶需求

作為一家純IC設計公司,C社成立已超過十年。

公司在本地部署了由十多臺機器組成的計算集群,但目前面臨的最大問題依然是算力不足。特別是面對每年十次左右的算力高峰期時,基本上沒有太好的辦法。

對云的認知

C社相關負責人表示:算力不足是目前IC設計行業普遍面臨的問題。對于EDA上云,公司之前沒有嘗試過,對云模式和架構也并不了解,在數據安全性方面也存在一定的顧慮。

不過該負責人對于EDA上云早有耳聞,也頗感興趣,愿意進行一定的嘗試。畢竟上云若真的能夠加快運算速度,就意味著可以更早展開研究,從而提升項目的整體進度。

實證目標

1、HSPICE任務能否在云端運行?

2、云端資源是否能適配HSPICE任務需求?

3、fastone平臺能否有效解決目前業務問題?

4、相比傳統手動模式,云端計算集群的自動化部署,有哪些好處?

實證參數

平臺:

fastone企業版產品

應用:

HSPICE

適用場景:

仿真模擬電路、混合信號電路、精確數字電路、建立SoC的時序及功耗單元庫、分析系統級的信號完整性等

技術架構圖:

用戶登錄VDI,使用fastone算力運營平臺根據實際計算需求自動創建、銷毀集群,完成計算任務。

fastone企業版云計算平臺技術架構圖

License配置:

EDA License Server設置在本地。

步驟一:硬件選擇

選擇適合HSPICE應用的配置

云端可以選擇的機型有幾百種,配置、價格差異極大。

我們首先需要挑選出既能滿足HSPICE應用需求,又具備性價比的機型。

已知用戶的本地硬件配置:

Xeon(R) Gold 6244 CPU @ 3.60GHz,512GB Memory

本地配置不僅主頻高,內存也相當大。

我們推薦的云端硬件配置:

96 vCPU, 3.6GHz, 2nd Gen Intel Xeon Platinum 8275CL, 192 GiB Memory

96 核,第二代英特爾奔騰處理器 8275CL, 192 GB內存

推薦理由:

1、該應用對CPU主頻要求較高,但內存要求并不大;

2、我們選擇了計算優化型云端實例,即具備高性價比的高主頻機器。

C社的本地硬件在HSPICE以外,還需處理一些需要大內存的后端任務,所以需要在配置上兼顧各種資源需求,在當前項目不可避免會造成一定的資源浪費。

步驟二:云端部署

手動模式 VS 自動部署

我們先看手動模式:

第一步:不管你需要用哪朵云,你都得先熟悉那家云的操作界面,掌握正確的使用方法;

第二步:構建大規模算力集群:

  • 配置計算節點,存儲節點,VPC,安全組等等
  • 安裝應用,把HSPICE安裝在集群環境
  • 配置集群調度器,比如slurm

第三步:上傳任務數據,開啟計算;

第四步:任務完成后及時下載結果并關機。不要笑,這一點很重要。我們在 切換七種視角,我們給各位CXO大佬算算上云這筆賬 有講到原因。

此外,還有一個需要考慮的點,時間。

第一步,需要多少時間說不好;

第二步,大概需要專業IT人員平均3-5天;

第三步/第四步,如果數據量較大,需要考慮斷點續傳和自動重傳;

第四步,任務完成時間很可能難以預測。

即使是可測的,我們可以想象一個場景——有個任務預計在凌晨跑完,用戶此時有兩個選擇:

1、調一個鬧鐘,半夜起來關機——有人遭罪;

2、睡到自然醒,次日上班關機——成本浪費

手動模式下,創建/銷毀/調度計算集群的步驟

在手動模式下,通常都是先構建一個固定規模的集群,然后提交任務,全部任務結束后,關閉集群。想一下一個幾千core的集群拉起來之后,第二、三、四步手動配置的時間里,所有機器一直都是開啟狀態,也就是說,燒錢中。

再看看我們的自動化部署:

第一步,不需要;

第二步,只需要點擊幾個按鈕,5-10分鐘即可開啟集群;

第三步,我們有Auto-Scale功能,自動開關機。

另外,我們還自帶資源的管理和監控功能。

fastone的Auto-Scale功能可以自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。

  • 所有操作都是自動化完成,無需用戶干預;
  • 在實際開機過程中,可能遇到云在某個可用區資源不足的情況,fastone會自動嘗試從別的區域開啟資源;
  • 如果需要的資源確實不夠,又急需算力完成任務,用戶還可以從fastone界面選擇配置接近的實例類型來補充。
auto-scale彈性計算,速石科技自動伸縮集群調度系統,自動調度計算峰值和低谷期的運算力

跨區域,跨機型使用,在本次實證場景沒有用到。
我們還可以根據GPU的需求來實現自動伸縮,下次單獨聊。

實證場景一:云端驗證

 本地40核 VS 云端40核 VS 云端80核 

結論:

1、當計算資源與任務拆分方式均為5*8核時,本地和云端的計算周期基本一致;

2、在云端將任務拆分為10*4核后,比5*8核的拆分方式計算周期減少三分之一; 

3、當任務拆分方式不變,計算資源從40核增加到80核,計算周期減半;

4、當計算資源翻倍,且任務拆分方式從5*8核變更為10*4核后,計算周期減少三分之二;

5、fastone自動化部署可大幅節省用戶的時間和人力成本。

本地40核對比云端40/80核計算資源,云計算提高運算效率,縮短運算耗時

實證過程:

1、本地使用40核計算資源,拆分為5*8核,運行編號為1的HSPICE任務,耗時42小時

2、云端調度40核計算資源,拆分為5*8核,運行編號為1的HSPICE任務,耗時42小時;

3、云端調度40核計算資源,拆分為10*4核,運行編號為1的HSPICE任務,耗時28小時;

4、云端調度80核計算資源,拆分為10*8核,運行編號為1的HSPICE任務,耗時21小時

5、云端調度80核計算資源,拆分為20*4核,運行編號為1的HSPICE任務,耗時14小時

實證場景二:大規模業務驗證

超大規模計算任務

結論:

1、增加計算資源并優化任務拆分方式后,云端調度1920核計算資源,將一組超大規模計算任務(共計24個HSPICE任務)的計算周期從原有的30天縮短至17小時即可完成,云端最優計算周期與本地計算周期相比,效率提升42倍;

2、由fastone平臺自研的Auto-Scale功能,使平臺可根據HSPICE任務狀態在云端自動化構建計算集群,并根據實際需求自動伸縮,計算完成后自動銷毀,在提升效率的同時有效降低成本;

3、隨著計算周期的縮短,設備斷電、應用崩潰等風險也相應降低,作業中斷的風險也大大降低。在本實例中未發生作業中斷。

本地40核對比云端1920核,云計算大大提高運算效率,縮短運算耗時

實證過程:

1、本地使用40核計算資源,拆分為5*8核,運行編號從0到23共計24個HSPICE任務,耗時約30天;

2、云端調度1920核計算資源,拆分為24組,每組為20*4核,運行編號從0到23共計24個HSPICE任務,耗時17個小時。

實證小結

我們回顧一下實證目標:

1、HSPICE任務在云端能高效運行;

2、異構的云端資源能更好適配HSPICE任務需求,避免資源浪費;

3、fastone平臺有效解決了算力不足問題,效率提升42倍;

4、相比手動模式,fastone平臺自研的Auto-Scale功能,既能有效提升部署效率,降低部署門檻,又能大大縮短整個計算周期資源占用率,節約成本。

至于本次實證場景沒用到的跨區域,跨機型使用,還有根據GPU的需求來實現自動伸縮,我們下次再聊。

本次半導體行業Cloud HPC實證系列Vol.1就到這里了。

在下一期的實證中,我們最多調用了5000核的云資源來執行OPC任務,并且充分評估了License在本地和云端的性能差異。

未來我們還會帶給大家更多領域的用云“真香”實證,請保持關注哦!

END -

查看更多 速石科技 EDA 行業上云解決方案

2分鐘自動開通【在線體驗版】,即刻獲得TOP500超級算力,注冊即贈 200元 體驗金 ——> 體驗入口

免費試用速石云計算平臺

《半導體行業云解決方案白皮書》
有興趣可以掃碼添加小F微信(ID: imfastone)獲取

半導體行業EDA企業上云解決方案白皮書

相關閱讀

>>  全球半導體行業上云格局一覽和十個上云實踐問題解答

>>【2020新版】六家云廠商價格比較:AWS/阿里/Azure/Google/華為/騰訊

>>  切換七種視角,我們給各位CXO大佬算算上云這筆賬

>>  花費4小時5500美元,速石科技躋身全球超算TOP500

>>  靈魂畫師,在線科普多云平臺/CMP云管平臺/中間件/虛擬化/容器是個啥

The post EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍? appeared first on 速石科技BLOG.]]>
http://www.youjiajingji.com/blog/eda-case-hspice-20200825/feed/ 0