
“上云正成為芯片設計產業的一個趨勢。”燧原科技IT負責人Vincent近日在接受數智前線采訪時表示。
不久前,速石科技聯合騰訊云為芯片設計企業燧原科技,打造了一個面向HPC(高性能計算)場景的行業解決方案。該方案基于速石科技的一站式芯片設計研發云平臺,快速自動地調用騰訊云IaaS資源構建仿真環境,滿足了燧原科技的業務彈性需求,提升了整體的項目研發效率。
01 芯片設計產業上云正在成為趨勢
燧原科技作為國內領先的AI芯片設計企業,當初創造過僅用18個月就將技術門檻很高的AI訓練芯片一次性流片成功的紀錄。
但隨著工藝制程越來越先進,燧原也面臨著IT資源和效率無法滿足業務需要的矛盾。
芯片的研發周期通常都比較緊張,尤其是大芯片,中后期經常是按天來做任務排期。而行業內普遍采用的是自建IDC(數據中心),騰訊云高性能計算行業高級經理Kevin告訴數智前線,這么做主要是當時的芯片工藝沒那么先進,對算力的需求也沒那么大。
而且,燧原科技IT負責人Vincent透露,芯片項目在前期會做大量論證和規劃,包括需要多少算力和存儲。但問題在于,在項目推進過程中經常會有變更,包括制程的改進、功能變化及性能指標調整。這種變更會造成大量突發的算力需求。如果要通過采買服務器或者是租借服務器的方式來滿足需求,從部署、上線測試,需要相當長的一段時間業務團隊才能用上這些算力,影響研發進度。
這樣的效率顯然是無法接受的。尤其是這幾年的疫情導致采買硬件的周期不可控,但芯片項目周期是明確的,這就意味著,芯片設計企業要面臨一個不確定的IT資產的風險。比如一天之內要準備一兩百臺服務器,只有上云才能夠做到,如果是原有的IT流程,從確認服務器型號到采購,從安裝服務器上機柜到機房運維,最快也要8到12周,而且IT資金占用成本太高。
“這是我們上云的一個契機吧。”Vincent提到。

大芯片設計周期超過12個月,包括產品定義、前端設計、IP驗證、SOC驗證、綜合、布局布線等多個階段,不同階段對算力的需求不相同。驗證環節是算力使用的高峰期。所以,燧原也選擇將部分驗證搬到云上,“前端IP驗證的過程基本都上云了,后續我們肯定是希望把整個彈性的部分盡量都上云。”燧原科技項目負責人Eli說。
燧原有大量彈性作業的需求,比如需要在同一個時間配置數百臺的服務器,對穩定性和實時響應的要求非常高。目前,騰訊云聯合速石可以做到讓客戶在1小時內快速把仿真作業跑起來,讓客戶在有限時間更頻繁地去跑仿真和驗證任務,提高流片前的成功率。同時基于速石對業務場景優化和CAD方面的能力,幫助燧原整體Job運行時間降低了50%,加快了整個項目的研發進度。
而且,芯片設計行業如今已經進入到7nm甚至3nm時代,一顆芯片上會有幾百億級的晶體管,它對算力的需求會大大增加。這就意味著,芯片企業在高峰期的算力需求非常明顯,燧原等芯片設計企業開始尋求彈性的算力解決方案。
“上云是一個行業趨勢。”Vincent說,“都在嘗試,但全部都上云還需要一些時間。”
02 安全、效率和成本的鐵三角
芯片設計企業最核心的是各種芯片代碼和知識產權,相比于很多行業,這個賽道對數據安全有著更高的要求。
燧原科技在上云的態度是,所有的數據要放在本地,只有彈性的部分在云上,中間不做數據存儲。所以,速石和騰訊云在燧原的建議和啟發下,大家探索出了“存算分離”的混合云計算架構,并且花了五六個月時間去驗證。它能夠在保障核心數據、代碼存儲在本地的前提下,通過速石平臺與本地計算集群打通,使得計算任務能夠靈活選取本地或云端算力隊列。
速石高級技術總監陳琳濤透露,此次采用的存算分離方案本質上是一個混合云方案,速石提供的一站式芯片設計研發云平臺可擴展到本地和云上,在純云、純本地、混合云三種模式下都可交互。從技術范疇來說,速石的存算一體解決方案已經十分成熟。但在燧原的項目中,該方案面臨進一步的技術挑戰,例如在整個混合云建設架構上,對網絡的時延、帶寬的吞吐率和效率的要求都非常高,這就要求三方共同在這個項目里尋求最優的架構布置方式。
Vincent坦言,因為做了存算分離的架構,數據在本地,所以企業對安全的擔憂會有降低。
以前的存算分離,是在同一自治域內,比如都在騰訊云上實現。但現在燧原的方案是在兩個自治域內,混合云部署,云上一部分,云下有一部分,云下是燧原在做,云上的部分是速石科技和騰訊云來做。不過,這增加了物理距離,而且各種接口的調度變得更加復雜,更加考驗云廠商和合作伙伴的能力。而速石平臺不改變用戶的使用習慣,讓使用者無感地調用云資源,對資源的調用更加便捷,減少上云的學習成本。
速石和騰訊云之前考慮的是直接把客戶的數據上云,方便高效。但溝通之后發現,芯片客戶對數據安全的要求,還是采用混合云存算分離的架構最為合適。騰訊云目前僅做算力的支撐,速石平臺提供自動化高效的環境構建,燧原的代碼等企業核心數據都是放在線下。不過,在騰訊云架構師Cedric看來,有些不敏感的數據理論上可以上云,通過緩存技術來提高仿真效率。
Kevin告訴數智前線,早期初創,存量數據和存量資產少,對安全沒那么大顧慮,使用全云方案是首選,但規模大了之后,很多企業則傾向采用混合云架構。
而且,很多芯片設計企業以前就有很多IDC資產,如何把原有的資源利用起來,也是企業的訴求,可以比較好的平衡既有資產的投入,同時又兼顧云的彈性、靈活、快捷、便捷。“所以從這個角度上來說,混合云是目前來看一個比較好的選擇。”
像燧原并沒有將全部業務搬到云上,其中一部分依然用到了本地的算力,比如項目前期運行還是更適合本地已有的算力。事實上,很多芯片設計企業還是以本地為主,云上做彈性的部分。
混合云的部署方式,對IT成本的節約也在逐漸成為共識。
燧原算過一筆賬,如果自己采買服務器、自建機房,按照三五年的周期財務進行對比,每個月均攤的成本會比每個月上云均攤的成本更低。但如果從節省時間和人力、提升效率以及整體的綜合成本考慮,上云的優勢還是非常明顯。因為云不需要水電,也不需要自己運維,這部分都是省下來的,而且快速部署和彈性擴容的能力,能讓研發人員提高效率,縮短研發周期。
除了采用存算分離的架構,騰訊云聯合速石也為燧原等芯片設計客戶打造了從終端到云端的完整安全方案。
在終端,騰訊云的零信任安全的iOA方案,可以保障燧原全國各地的研發人員,能無縫體驗一致的仿真環境,同時確保終端安全、信息保護以及一些漏洞的保護。
在云端,使用了騰訊的主機安全,保障整個計算環境是安全授信的,通過這個部分確保整個計算過程不會有入侵、數據泄露、勒索病毒等等的問題。甚至是傳輸層面,騰訊云與燧原之間有一條超大帶寬的網絡保障,確保了整個傳輸的通道安全可信。
不難發現,通過存算分離的架構和混合云的部署方案,既滿足了對彈性算力和效率的需要,又能滿足節約成本和數據安全的需要。而這些正是企業在上云和用云過程中最在意的方面。
目前,“存算分離”的混合云架構已經幫助燧原節省了可觀的IT投入,任務并發量可以通過云端彈性同步提高,同時部分仿真任務周期縮短30%~50%。

當然,Eli也提到,現階段使用這一套三方共創的存算分離方案滿足了部分業務在彈性算力使用量上的需求。而下一步我們還要進一步優化,提升使用效率,“如何更高效的利用云上機器,如何契合業務使用進行高效優化,并遷移更多的業務,是我們接下來要做的事情。”
關于fastone云平臺在各種EDA應用上的表現,可以點擊以下應用名稱查看:
- END -
我們有個IC設計研發云平臺
集成多種EDA應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~

更多EDA電子書
歡迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
芯片設計五部曲之二 | 圖靈藝術家——數字IC
芯片設計五部曲之一 | 聲光魔法師——模擬IC
【ICCAD2022】首次公開亮相!國產調度器Fsched,半導體生態1.0,上百家行業用戶最佳實踐
解密一顆芯片設計的全生命周期算力需求
居家辦公=停工?nonono,移動式EDA芯片設計,帶你效率起飛
缺人!缺錢!趕時間!初創IC設計公司如何“絕地求生”?
續集來了:上回那個“吃雞”成功的IC人后來發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
速石科技成三星Foundry國內首家SAFE?云合作伙伴
EDA云平臺49問
億萬打工人的夢:16萬個CPU隨你用
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
