
介紹
計算機輔助工程(CAE)從上世紀50年代起源于數學家、科學家和工程師開發的技術,旨在改進航空航天和汽車工業的設計。作為一種資源密集型技術,CAE一直是一個等待解決方案的挑戰。
隨著半導體工藝驅動摩爾定律的每一次轉動,內存的每一次進步以及CPU和GPU的并行處理能力的不斷增強,CAE的性能也隨之擴展。今天,CAE正在回應半導體和軟件方面的進步,這些進步從根本上改變了行業格局。
主要的工程仿真軟件供應商,包括Altair、Ansys、Autodesk、Dassault Systèmes(Simulia)、Hexagon MSC和西門子,一直依賴于當CPU是主要計算引擎時開發的技術。最初,為了適應計算系統,模型被簡化了,但工程師想要更多的逼真和復雜度。因此,這些更大更復雜的問題的計算時間可能需要幾個小時,甚至幾天和幾周的處理才能得到結果。
這延遲了結果的解釋,因此也幫助定義了CAE的使用方式。例如,CAE通常在產品制造后用于鑒定故障原因。然而,CAE的真正價值在于在設計過程的早期階段就開始使用。CAE更適合用于幫助定義設計,而不是診斷故障。
2000年圖形處理器(GPU)的出現為CAE帶來了一次重大轉變,就像其他許多受益于并行處理的領域一樣。CAE的主要工作是大規模的并行處理。CAE通過在模型上創建節點網格,然后對節點施加力和條件來評估設計是否適合其用途。網格越密,模擬越可靠。這是GPU的明顯應用,軟件供應商和硬件開發人員在GPU歷史的早期就已經認識到這一點了。
為了在CPU上運行,仿真方法必須考慮到CPU的能力。他們必須減小模型的大小,簡化設計,并管理網格大小,因此評估的實體可能與正在分析的真實實體存在很大的不同。
GPU的優勢在于在一個芯片上擁有比CPU更多的處理單元。在處理器對比中,GPU處理器比CPU處理器便宜得多。那么,如果GPU處理器比CPU處理器更便宜,并且GPU更適合于CAE工作負載,為什么不所有軟件程序都轉換到GPU呢?
挑戰在于GPU和CPU的工作方式不同,需要針對每個進行特定的編程方法。CAE基于幾十年前開發的復雜應用程序。將這些程序適應GPU并不容易,但編程工具如Nvidia的CUDA和OpenCL已經出現,使開發人員更容易利用GPU加速。
CAD的變化
21世紀初,CAE出現了兩個主要趨勢。在2000年代的第一個十年,計算機輔助設計(CAD)軟件供應商開始收購CAE技術,將其添加到設計流程中。這樣做的想法是將CAE能力集成到CAD中,并自動化設計師的流程。這項工作正在進行中,收購也在繼續。
同時,CAE社區也認識到需要先進的CAE,需要專業技能和資源。CAE軟件供應商正在投資于GPU加速和推進高性能計算(HPC)。
同樣,半導體公司一直在投資于為軟件開發人員創建通往其硬件的工具。英特爾和AMD正在尋找其CPU和GPU的機會。Nvidia以其于2006年早期對CUDA的承諾和投資脫穎而出。CUDA是一組用于加速應用程序的GPU專用代碼庫。作為這項工作的一部分,Nvidia一直在與CAE開發人員合作,創建針對模擬-分析-可視化常見任務的工具。該公司獨特的是其對GPU的專注,這推動了其進入專業工具開發領域。在2023年,這種專注有望通過Nvidia的Grace CPU的推出而擴大,該CPU將利用Arm處理器以及CPU。
在CPU和GPU之間,CAE的路徑分化。集成到CAD流程中的分析工具具有更高的自動化水平,并且設計用于更簡單的問題; 它們允許CPU的限制,并通過使可視化和模擬工具對設計師和工程師可訪問來幫助增長CAE工具市場。早期的模擬工具依賴于CPU,因為CAD程序是為CPU編寫的。如今,CAD供應商正尋找像模擬行業中的同行一樣利用GPU的方法。CAD供應商正在構建插件和附加組件以實現GPU加速。此外,它們正在添加云資源,以提供對其CAD旗艦產品的基于CPU的核心技術不可用的高級功能。這些進步為包括分析和模擬的工作站應用程序提供了發展空間。
舉一個著名的例子,達索系統公司已經構建了他們的3DExperience平臺,以統一Catia和SolidWorks設計平臺。在3DExperience平臺上工作的設計工程師可以直接在其設計上使用Abaqus進行結構分析,并利用該程序對GPU加速的支持,而無需導入CAD模型,執行網格劃分,運行分析,然后在單獨的工具中更新設計?;谠频腃AD工具Autodesk Fusion 360和PTC的Onshape也可以利用云中的GPU來進行程序的模擬擴展。
盡管在主流設計應用程序中工作的CAE應用程序的機會正在增長,但仍將有對需要專業從業者進行高端分析的同時需求。設計師在工作時執行簡單分析的能力為高性能系統進一步發展的先進模擬鋪平了道路,無論是工作站、HPC服務器還是基于云的系統。
GPU工具不斷發展
傳統上,設計師和工程師會導出他們感興趣區域的簡化模型。他們會盡可能地刪除模型的特征并添加網格作為分析的框架。他們還會定義材料并施加載荷和約束。這些步驟是CAE的預處理階段的一部分。 傳統上,該過程由專家處理,往往是一個耗時的過程。集成在CAD程序中的仿真工具通常會自動化處理簡化幾何的過程。在更高級的實現中,該過程可能是手動和自動化過程的結合。驅動力是通過在工作站上增加自動化來避免等待經驗不足的用戶和甚至專家可能會忽略需要特別關注的區域的挑戰。
此外,對于預處理和識別模型中的關注區域,越來越多地出現了使用機器學習(ML)和人工智能(AI)的趨勢。
準備好的預處理自定義幾何將被發送到求解器。

一旦網格被定義好后,接下來就是最繁重的任務:求解。這包括運行計算流體力學(CFD)、有限元分析(FEA)和計算電磁學(CEM)模擬的算法,根據問題的不同,可能需要一些時間——幾分鐘、幾小時,甚至幾天——取決于應用程序和工作負載的要求。
GPU的最佳路線
自2014年以來,每個主要的CAE供應商都以某種方式利用了GPU加速。對求解器方面的算法進行了大量的工作,因為可以實現巨大的收益。估計線性求解器占CAE工作量的50-70%。對于一些軟件供應商而言,在某些情況下,這代表了低果實,因為該過程易于映射到GPU。在其他情況下,代碼必須被重寫。
例如,AMG(代數多網格)算法是所有CFD軟件工具中心的求解器。 Nvidia和Ansys合作并將AMG并行化,并創建了AmgX庫以利用GPU,然后進一步開發CUDA工具用于CFD。
這項工作促使Ansys開發了一款新產品Discovery,它正在轉變主流CAD工具中的仿真工作流程,允許在流體,熱,結構和模態應用中進行迭代式設計探索。

Ansys公司研究副總裁Dipankar Choudhury表示,Discovery的開發代表著Ansys從傳統產品中脫穎而出,這些產品通常是為設計周期的末尾而開發的。他說:“Discovery實際上將設計過程向上推進。因此,使用Discovery技術,您可以評估候選設計,還可以在早期評估設計概念?!?/p>
對于Discovery,Ansys抓住機會從GPU的角度重新設計,而不是移植像他們的Fluent CFD工具這樣的大型應用程序?!拔覀儾粫M行移植,” Choudhury說。仿真公司在過渡到GPU加速時正在處理的挑戰是,為CPU編寫的代碼部分可能會降低總體性能。
“因此,我們非常有意識地決定不采用這種方法,并從頭開始在GPU上編寫代碼軟件?!?在Discovery的開發之后,PTC和Ansys合作推出了Ansys Discovery,Creo Simulation Live的集成版本,使設計師可以進行迭代設計和分析。
西門子并沒有急于進入GPU市場,而是等待他們感到投資將使用戶受益。他們的過渡到GPU的方法是基于這樣一種假設:他們的客戶將能夠毫不費力地在CPU和GPU之間無縫切換,而不會對他們的模擬環境和結果產生任何影響。隨著C++工具成熟度的提高和Nvidia Volta架構帶來的性能改進,他們感覺現在是時候了。
西門子的CFD軟件Simcenter STAR-CCM+是一個龐大的代碼庫,但是大多數更改都是在內部框架層面進行處理的。西門子的開發人員修改了框架,支持一個單一的代碼庫,可以統一地編譯為CPU和GPU架構,內部細節被抽象出來。為了在2022年初通過Simcenter STAR-CCM+ 2022.1交付他們的第一個GPU版本,他們依賴于NVIDIA的AmgX。對于這個版本,他們專注于車輛外部空氣動力學應用,因為這項工作需要較少的物理模型和相關框架的移植,但是計算開銷很大,使并行化成為必需,GPU加速非常有吸引力。隨后,西門子的工程師正在大力投資于將所有可以從GPU受益的物理、求解器和相關軟件部件移植到未來幾年中。
Simcenter STAR-CCM+物理領域的產品經理Stamatina Petropoulou表示,西門子相信異構架構是未來的發展方向。在尋找任何給定仿真項目的最佳成本解決方案時,CFD工程師將希望從CPU切換到GPU,從本地切換到云端,甚至在一個單一的仿真運行中利用所有的優勢。她指出,“對于多年來一直在驗證軟件結果一致性的Simcenter STAR-CCM+客戶來說,無縫切換CPU到GPU非常關鍵!”因此,他們確??蛻艨梢允褂孟嗤拇a,并在CPU或GPU上獲得等效的結果(參見圖像)。

Hexagon公司的產品管理副總裁Hugues Jeancolas表示,在MSC Software中,他們決定從一開始就為GPU編寫其新產品MSC Apex Generative Design。他說,結果是,該應用程序在使用Nvidia GPU進行計算時,可以運行以前需要昂貴集群才能運行的計算。CUDA框架為Hexagon的開發人員提供了一個易于入門的起點,他們能夠立即開始編碼。MSC開發團隊使用MSC Apex Generative Design、CUDA、CuBLAS和CuSPARSE來實現其生成式設計應用程序的GPU加速。
最后,MSC Apex Generative Design會輸出一份完整的、可供添加制造機器使用的模型,無需手動重新處理。Jeancolas估計,標準部件的一個優化運行的計算時間可以通過在標準工作站上比較CPU和GPU來縮短五倍。他說,隨著添加更多的GPU或使用更先進的GPU,這個數字會不斷提高。 同樣地,Hexagon的工程師們能夠重新設計他們的Actran DGM(不連續Galerkin方法)聲學應用程序,以利用GPU。Actran DGM用于預測復雜物理條件下的噪音傳播,廣泛應用于汽車工業。Jeancolas表示,大約十年前,在GPGPU(通用GPU)應用程序的早期階段,Actran DGM團隊能夠將他們的大部分代碼移植到GPU上。這個基于CPU的代碼是大規模并行的,需要數千個核心。通過將其移植到GPU上,團隊不僅使代碼更加高效,而且由于CPU核心比GPU核心更昂貴,運行成本也更低。 如今,Actran DGM已經被優化以進一步利用GPU加速。Actran DGM的性能隨著GPU數量的增加而增加。性能還取決于板上的內存容量、每個單獨核心的性能和核心數量,這些條件隨著引入新的圖形板和GPU而不斷提高。
在將CAE程序適配為GPU加速的早期階段,電磁分析已成為GPU加速的早期受益者。2016年,達索系統收購了德國公司(CST),該公司專門從事電磁仿真和分析軟件,以擴展其Simulia品牌的多物理學組合。達索系統Simulia R&D電磁技術高級總監Peter Hammes表示,CST Studio Suite的技術基于有限差分時域仿真算法,非常適合GPU架構。它還受益于大型GPU內存和內存帶寬,并且從工作站GPU擴展到數據中心計算GPU(例如Nvidia A100)的能力非常好。CST團隊認為,Nvidia的CUDA庫使得從零開始開發新項目變得更加容易。
Altair于2019年收購了EDEM,并將其離散元素建模技術加入其龐大的求解器技術組合中。EDEM可以作為獨立工具使用,也可以與其他CAE工具結合使用,包括與CFD求解器結合使用,用于與基于顆粒的材料行為相關的模擬。它用于模擬煤和其他礦石、土壤、纖維、谷物等的行為。處理基于顆粒的模擬已經是天然的大規模并行任務。
“實際開發過程非常順利,客戶在性能方面看到了巨大的回報——相比基于CPU的流程,性能提高了20倍,”Altair高級副總裁兼CFD副總裁David Curry說。“具體來說,添加GPU將EDEM的性能提高了20倍,相當于12個CPU在類似的工作負載下工作?!盇ltair表示,他們最新的EDEM多GPU求解器可以解決規模更大的工業問題——包括數百萬粒子,隨著添加更多GPU卡,性能可擴展性得到提高。 據Curry表示,大規模GPU系統的部署增加了人工智能應用的熱情。人工智能有助于通過主要云服務提供商增加云GPU的可用性,進而推動GPU加速工具和應用的穩定增長。 Altair的工程師開始支持GPU,因為GPGPU開發工具變得更加可用。他們認為,Nvidia不斷更新技術、開發工具和支持使這個過程更容易。 迄今為止,來自10多個獨立軟件開發商的120多個CAE應用程序已經通過GPU加速。結果令人印象深刻,根據應用程序和工作負載的不同,速度提高了多達100倍。此外,隨著添加GPU,性能改進將不斷擴大。隨著更多求解器移植到GPU,還將出現更多的突破。
客戶
在CAE的最后階段,包括可視化、結果分析和報告撰寫時,人的因素變得非常重要。CAE應用程序提供了可視化和相關數據的結果。分析人員評估結果,并決定如何繼續——進行更多分析或返回模型進行調整,如分析所建議的那樣。
即使分析過程是從CAD模型內部啟動的,分析通常也是一個與設計分離的過程。正如我們已經概述的那樣,幾何優化、網格化、分析、可視化和評估。然后將發現帶回來調整設計幾何,進行更多分析或推進設計。
在使用高級分析的情況下,該過程甚至更為不連貫,因為分析本身可能是在設計組之外甚至由不同的公司執行的外部過程。最近由Roopinder Tara為Dassault Systèmes編寫的一項研究《模擬、原型和驗證的狀態》記錄了類似的工作流程。他們對268名工程師進行了調查,發現實際的CAE實踐滯后于當今的計算機和軟件潛力。物理原型仍在制作中,設計仍被發送到外部專家進行分析,這可能需要數天才能完成。
開發Discovery的Ansys團隊認為他們正在為分析開辟一條新路。Ansys產品管理總監Justin Hendrickson表示:“我們有點奉行‘建設它,他們就會來’的模式?!盌ipankar Choudhury也同意,并表示他們看到了Discovery在公司中被介紹的方式以及它如何被學校教師教授的變化。Discovery不再只是研究部門和研究生使用,而是直接傳遞給最終用戶并由初等教育教師教授。數字也支持在整個設計過程中使用GPU加速。Discovery團隊為創建Discovery所做的工作也為他們在Fluent上的工作提供了啟示。Discovery的CFD部分也成為Ansys的Fluent的基礎。

使用一個Quadro RTX 5000 GPU的工作站,而使用六個Intel Core i7-11850H CPU。
Choudhury指出,隨著GPU開始在像CAE這樣的高級計算過程中發揮作用,“傳統的計算社區總是認為我們選擇的方法精度較低,或者我們在數值方法上做出妥協以便使它們在GPU上高效運行?!钡聦嵅⒎侨绱?,Hendrickson說。他們看到了同樣精度的結果,“這真是令人驚訝,也不是預料之中的,”他補充道?!爱斘覀兛吹紾PU的一些好處時,其中一個是速度,但是速度意味著什么?
我們真正談論的是每美元的價格、每核的性能或每美元的性能?!彼f,Ansys的許多客戶都關心可持續性,他們關心能源最小化,正是在這兩個方面,我們看到了10倍甚至更大的增長。”

加快Ansys最新版本的Fluent在GPU上原生運行,并且速度加快
Ansys的科學家們已經計算出,在某些情況下,四個GPU在某些CAE應用程序中可以比一千個CPU內核表現更好,成本只有其16%,并且耗電量比后者少四分之一。該公司已發布一篇博客,討論了GPU在CFD應用中的可擴展性。該博客還強調了CPU和GPU之間有吸引力的成本差異。在桌面上,隨著新一代處理器的推出,CAE性能可以隨之提升,因為新的半導體制造工藝使每個內核具備了更多的處理器。
相比于CPU,Nvidia GPU在內核數或每秒浮點運算(FLOPS)方面表現更好。由于算法的冗余性和數據量的多樣性,網格處理和求解程序非常適合并行處理器。

Dassault Systèmes的Simulia首席架構師Matt Dunbar表示,主要用于結構模擬的FEA工具Simulia Abaqus受益于GPU處理器的快速發展。他表示,在過去,“每當你將計算能力加入代碼中時,人們就會使問題更大。”這種趨勢不再是一個硬性規則,因為客戶希望能夠執行更多的迭代,同時解決更具挑戰性的問題。他指出,現代工作站可以擁有大量的內存和大量的核心?,F在,“在工作站中添加一個或兩個GPU確實可以使工作站獲得強大的加速效果,擴展了工作站的范圍,而不需要強制轉向高性能計算(HPC)?!?GPU加速對于幾個Abaqus功能都是有益的,包括使用AMS特征解算器,在節點數量非常大的完整車輛模型中提高自然頻率提取性能。 GPU計算資源對于Abaqus穩態動力學和計算密集型的直接稀疏求解器操作也非常有益。

隨著工作站在高級計算過程方面的能力越來越強,它們在設計工作流程中的作用也在發生變化。高級功能也正在改變那些使用這些計算機的人們的角色,現在他們能夠在自己的辦公桌上完成更多的工作。
更多
顯然,相比于在CPU上運行類似應用程序,GPU加速了CAE過程。簡單來說,在單個芯片中,GPU處理器比CPU半導體中的處理器多一個數量級,但這不是一場純粹的數字游戲。應用程序必須經過GPU優化,硬件平臺需要針對仿真進行優化,并且每個問題都有其自身的要求。
正如本文中提到的,一些應用程序,例如電磁仿真、粒子和聲學仿真,非常適合于GPU。此外,GPU喜歡大型問題,這就是為什么我們看到Ansys和西門子推出了改進的CFD應用程序的原因。問題越大,仿真越有效率。 為了評估小型和大型模型仿真的改進情況,達索系統與戴爾和《數字工程雜志》合作,測試了搭載雙Intel Xeon Gold 6146 3.2 GHz GPU和Nvidia Quadro GV100的2021 Dell Precision 7920 Tower。

成本效益顯而易見。GPU處理器比CPU更便宜。無論是云端、集群還是臺式機上使用GPU都是如此。

除了快速的CPU和GPU,CAE工作負載還受益于大緩存和寬帶寬。重要的是確保內存不成為瓶頸,因此在許多情況下,CAE工作流正在轉移到圖形板上,這就是為什么我們看到專業圖形板帶有大量高速內存的原因。
Ansys在其博客中表示,將GPU用于CAE工作負載的好處包括:
?提高性能。
?降低硬件成本。
?減少能源消耗。
結論
我們所詢問的開發人員的經驗清楚地表明,與CPU相比,GPU在性能和成本方面具有優勢。針對渲染、CAE、AI/ML、視頻編輯和游戲等需求,GPU的廣泛可用性和不斷增長的數量,確保幾乎所有的功能強大的工作站系統都配備有GPU,通常是非常強大的GPU。
此外,GPU在這些資源密集型應用程序(如模擬)中卸載CPU的作用確保了整個系統的效率。 由于這些原因,GPU加速,曾經是設計和工程的一個很好的組件,現在已成為公司推進其實踐的關鍵組成部分。
隨著數字孿生的概念引起行業的想象力,CAD行業正在迅速變化。我們預計隨著技術的不斷改進,桌面上的迭代將更快、更便宜,更復雜的分析(和更大的幾何體)將利用強大的HPC設備。
想了解更多CAE相關信息 歡迎掃碼關注小F(ID:iamfastone)獲取
我們有個CAE仿真研發云平臺
集成多種CAE/CFD應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~

更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
2023仿真宇宙漫游指南——工業仿真從業者必讀
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
