本次活動將重點聚焦高性能計算(HPC)與人工智能(AI)在制造行業的深度融合,探索數字化轉型中的智能制造新趨勢。
語言識別是從多個音頻輸入樣本中識別主要語言的過程。在自然語言處理(NLP)中,語言識別是一個重要的問題,也是一個具有挑戰性的問題。有許多與語言相關的任務,例如在手機上輸入文本、查找您喜歡的新聞文章或發現您可能遇到的問題的答案。所有這些任務都由NLP模型提供支持。為了決定在特定時間點調用哪個模型,我們必須執行語言識別。
本文介紹了使用英特爾? PyTorch 擴展(針對英特爾處理器進行了優化的 PyTorch AI 框架的一個版本)和英特爾??神經壓縮器(一種在不犧牲準確性的情況下加速人工智能推理的工具)進行語言識別的深入解決方案和代碼示例。
該代碼示例演示了如何使用擁抱人臉語音大腦* 工具套件訓練模型以執行語言識別,并使用英特爾?人工智能分析工具包 (AI Kit) 對其進行優化。用戶可以修改代碼示例,并使用通用語音數據集識別多達 93 種語言。
在建議的解決方案中,用戶將使用英特爾人工智能分析工具包容器環境來訓練模型,并利用英特爾優化的 PyTorch 庫執行推理。還有一個選項可以使用英特爾神經壓縮器量化訓練的模型,以加快推理速度。
對于此代碼示例,將使用通用語音數據集,特別是日語和瑞典語的通用語音語料庫 11.0。該數據集用于訓練強調通道注意力、傳播和聚合時間延遲神經網絡 (ECAPA-TDNN),該網絡使用 Hugging Face SpeechBrain 庫實現。延時神經網絡 (TDNN),又名一維卷積神經網絡 (1D CNN),是多層人工神經網絡架構,用于對網絡每一層具有移位不變性和模型上下文的模式進行分類。ECAPA-TDNN是一種新的基于TDNN的揚聲器嵌入提取器,用于揚聲器驗證;它建立在原始的 X-Vector 架構之上,更加強調信道注意力、傳播和聚合。
下載 Common Voice 數據集后,通過將 MP3 文件轉換為 WAV 格式來對數據進行預處理,以避免信息丟失,并分為訓練集、驗證集和測試集。
使用Hugging Face SpeechBrain庫使用Common Voice數據集重新訓練預訓練的VoxLingua107模型,以專注于感興趣的語言。VoxLingua107 是一個語音數據集,用于訓練口語識別模型,這些模型可以很好地處理真實世界和不同的語音數據。此數據集包含 107 種語言的數據。默認情況下,使用日語和瑞典語,并且可以包含更多語言。然后,此模型用于對測試數據集或用戶指定的數據集進行推理。此外,還有一個選項可以利用SpeechBrain的語音活動檢測(VAD),在隨機選擇樣本作為模型的輸入之前,僅從音頻文件中提取和組合語音片段。此鏈接提供了執行 VAD 所需的所有工具。為了提高性能,用戶可以使用英特爾神經壓縮器將訓練好的模型量化為整數 8 (INT8),以減少延遲。
訓練腳本的副本將添加到當前工作目錄中,包括 - 用于創建 WebDataset 分片,- 執行實際訓練過程,以及 - 配置訓練選項。用于創建 Web數據集分片和 YAML 文件的腳本經過修補,可與此代碼示例選擇的兩種語言配合使用。create_wds_shards.py
train.py
train_ecapa.yaml
在數據預處理階段,執行腳本隨機選擇指定數量的樣本,將輸入從MP3轉換為WAV格式。在這里,這些樣本中有 80% 將用于訓練,10% 用于驗證,10% 用于測試。建議至少 2000 個樣本作為輸入樣本數,并且是默認值。prepareAllCommonVoice.py
在下一步中,將從訓練和驗證數據集創建 WebDataset 分片。這會將音頻文件存儲為 tar 文件,允許為大規模深度學習編寫純順序 I/O 管道,以便從本地存儲實現高 I/O 速率——與隨機訪問相比,大約快 3-10 倍。
用戶將修改 YAML 文件。這包括設置 WebDataset 分片的最大數量值、將神經元輸出為感興趣的語言數量、要在整個數據集上訓練的紀元數以及批大小。如果在運行訓練腳本時 CPU 或 GPU 內存不足,則應減小批大小。
在此代碼示例中,將使用 CPU 執行訓練腳本。運行腳本時,“cpu”將作為輸入參數傳遞。中定義的配置也作為參數傳遞。train_ecapa.yaml
運行腳本以訓練模型的命令是:
python train.py train_ecapa.yaml --device "cpu"
將來,培訓腳本 train.py 將設計為適用于英特爾? GPU,如英特爾?數據中心 GPU Flex 系列、英特爾數據中心 GPU Max 系列和英特爾 Arc A 系列,并更新了英特爾??擴展 PyTorch。
運行訓練腳本以了解如何訓練模型和執行訓練腳本。建議將此遷移學習應用使用第四代英特爾至強?可擴展處理器,因為它通過其英特爾高級矩陣擴展(英特爾??? AMX)指令集提高了性能。
訓練后,檢查點文件可用。這些文件用于加載模型以進行推理。
運行推理之前的關鍵步驟是修補 SpeechBrain 庫的預訓練文件,以便可以運行 PyTorch TorchScript* 以改善運行時。TorchScript 要求模型的輸出只是張量。interfaces.py
用戶可以選擇使用 Common Voice 中的測試集或他們自己的 WAV 格式自定義數據運行推理。以下是推理腳本 () 可用于運行的選項:inference_custom.py and inference_commonVoice.py
輸入選項 | 描述 |
-p | 指定數據路徑。 |
-d | 指定波采樣的持續時間。默認值為 3。 |
-s | 指定采樣波的大小,默認值為 100。 |
--瓦德 | (僅限“inference_custom.py”)啟用 VAD 模型以檢測活動語音。VAD 選項將識別音頻文件中的語音片段,并構造一個僅包含語音片段的新.wav文件。這提高了用作語言識別模型輸入的語音數據的質量。 |
--易派克 | 使用英特爾擴展 PyTorch 優化運行推理。此選項會將優化應用于預訓練模型。使用此選項應可提高與延遲相關的性能。 |
--ground_truth_compare | (僅限“inference_custom.py”)啟用預測標簽與地面真實值的比較。 |
--詳細 | 打印其他調試信息,例如延遲。 |
必須指定數據的路徑。默認情況下,將從原始音頻文件中隨機選擇 100 個 3 秒的音頻樣本,并用作語言識別模型的輸入。
在LibriParty數據集上預訓練的小型卷積遞歸深度神經網絡(CRDNN)用于處理音頻樣本并輸出檢測到語音活動的片段。這可以通過選項在推理中使用。--vad
如下圖所示,將檢測到語音的時間戳是從 CRDNN 模型傳送的,這些時間戳用于構建僅包含語音的較短的新音頻文件。從這個新的音頻文件中采樣將更好地預測所說的主要語言。
自行運行推理腳本。運行推理的示例命令:
python inference_custom.py -p data_custom -d 3 -s 50 --vad
這將對您提供的位于data_custom文件夾中的數據運行推理。此命令使用語音活動檢測對 50 個隨機選擇的 3 秒音頻樣本執行推理。
如果要運行其他語言的代碼示例,請下載其他語言的通用語音語料庫 11.0 數據集。
英特爾擴展擴展了 PyTorch 的最新功能和優化,從而進一步提升了英特爾硬件的性能。查看如何安裝 PyTorch 的英特爾擴展。擴展可以作為 Python 模塊加載,也可以作為C++庫鏈接。Python 用戶可以通過導入 .intel_extension_for_pytorch
要使用英特爾 PyTorch 擴展優化模型以進行推理,可以傳入該選項。使用插件優化模型。TorchScript 加快了推理速度,因為 PyTorch 以圖形模式運行。使用此優化運行的命令是:--ipex
python inference_custom.py -p data_custom -d 3 -s 50 --vad --ipex --verbose
注意:需要該選項才能查看延遲測量值。--verbose
自動混合精度(如 bfloat16 (BF16) 支持)將在代碼示例的未來版本中添加。
這是一個在 CPU 或 GPU 上運行的開源 Python 庫,它:
通過在傳入模型和驗證數據集的路徑的同時運行腳本,可以將模型從 float32 (FP32) 精度量化為整數 8 (INT8)。以下代碼可用于加載此 INT8 模型以進行推理:quantize_model.py
from neural_compressor.utils.pytorch import load
model_int8 = load("./lang_id_commonvoice_model_INT8", self.language_id)
signal = self.language_id.load_audio(data_path)
prediction = self.model_int8(signal)
請注意,加載量化模型時需要原始模型。使用 FP32 量化訓練模型到 INT8 的命令是:quantize_model.py
python quantize_model.py -p ./lang_id_commonvoice_model -datapath $COMMON_VOICE_PATH/commonVoiceData/commonVoice/dev
以上是關于使用 PyTorch 構建端到端 AI 解決方案的一些介紹。
- END -
我們有個AI研發云平臺
集成多種AI應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
雖然在過去數十年中,人工智能 (AI) 的一些定義不斷出現,但 John McCarthy 在 2004 年的論文 中給出了以下定義:“這是制造智能機器,特別是智能計算機程序的科學和工程。 它與使用計算機了解人類智能的類似任務有關,但 AI 不必局限于生物可觀察的方法”。
然而,在這個定義出現之前數十年,人工智能對話的誕生要追溯到艾倫·圖靈 (Alan Turing) 于 1950 年發表的開創性工作:“計算機械和智能” 。 在這篇論文中,通常被譽為“計算機科學之父”的圖靈提出了以下問題:“機器能思考嗎?”由此出發,他提出了著名的“圖靈測試”,由人類審查員嘗試區分計算機和人類的文本響應。 雖然該測試自發表之后經過了大量的審查,但它仍然是 AI 歷史的重要組成部分,也是一種在哲學中不斷發展的概念,因為它利用了有關語言學的想法。
Stuart Russell 和 Peter Norvig 隨后發表了“人工智能:現代方法”,成為 AI 研究的主要教科書之一。 在該書中,他們探討了 AI 的四個潛在目標或定義,按照理性以及思維與行動將 AI 與計算機系統區分開來:
人類方法:
理想方法:
艾倫·圖靈的定義可歸入“像人類一樣行動的系統”類別。
以最簡單的形式而言,人工智能是結合了計算機科學和強大數據集的領域,能夠實現問題解決。 它還包括機器學習和深度學習等子領域,這些子領域經常與人工智能一起提及。 這些學科由 AI 算法組成,這些算法旨在創建基于輸入數據進行預測或分類的專家系統。
目前,仍有許多圍繞 AI 發展的炒作,市場上任何新技術的出現都會引發熱議。 正如Gartner 的炒作周期中所指出的,包括自動駕駛汽車和個人助理在內的產品創新遵循:“創新的典型發展進程,從超高熱情到幻想破滅期,最終了解創新在市場或領域中的相關性和作用”。正如 Lex Fridman 在其 2019 年的 MIT 講座中所指出的那樣,我們正處于泡沫式期望的顛峰,逐漸接近幻滅槽。
弱 AI 也稱為狹義的 AI 或人工狹義智能 (ANI),是經過訓練的 AI,專注于執行特定任務。 弱 AI 推動了目前我們周圍的大部分 AI?!胺秶笨赡苁谴祟?AI 更準確的描述符,因為它其實并不弱,支持一些非常強大的應用,如 Apple 的 Siri、Amazon 的 Alexa 以及 IBM Watson 和自主車輛。
強 AI 由人工常規智能 (AGI) 和人工超級智能 (ASI) 組成。 人工常規智能 (AGI) 是 AI 的一種理論形式,機器擁有與人類等同的智能;它具有自我意識,能夠解決問題、學習和規劃未來。 人工超級智能 (ASI) 也稱為超級智能,將超越人類大腦的智力和能力。 雖然強 AI 仍完全處于理論階段,還沒有實際應用的例子,但這并不意味著 AI 研究人員不在探索它的發展。 ASI 的最佳例子可能來自科幻小說,如 HAL、超人以及《2001 太空漫游》電影中的無賴電腦助手。
由于深度學習和機器學習這兩個術語往往可互換使用,因此必須注兩者之間的細微差別。 如上所述,深度學習和機器學習都是人工智能的子領域,深度學習實際上是機器學習的一個子領域。
深度學習實際上由神經網絡組成。深度學習中的“深度”是指由三層以上組成的神經網絡(包括輸入和輸出)可被視為深度學習算法。 這通常如下圖表示:
深度學習和機器學習的不同之處在于每個算法如何學習。 深度學習可以自動執行過程中的大部分特征提取,消除某些必需的人工干預,并能夠使用更大的數據集。 可將深度學習視為“可擴展的機器學習”,正如 Lex Fridman 在同一 MIT 講座中所指出的那樣。 常規的機器學習,或叫做"非深度"機器學習,更依賴于人工干預進行學習。 人類專家確定特征的層次結構,以了解數據輸入之間的差異,通常需要更多結構化數據以用于學習。
"深度"機器學習則可以利用標簽化的數據集,也稱為監督式學習,以確定算法,但不一定必須使用標簽化的數據集。 它可以原始格式(例如文本、圖像)采集非結構化數據,并且可以自動確定區分不同類別數據的特征的層次結構。與機器學習不同,它不需要人工干預數據的處理,使我們能夠以更有趣的方式擴展機器學習。
目前,AI 系統存在大量的現實應用。 下面是一些最常見的示例:
人工智能的發展需要三個重要的基礎,分別是數據、算力和算法,而云計算是提供算力的重要途徑,所以云計算可以看成是人工智能發展的基礎。云計算除了能夠為人工智能提供算力支撐之外,云計算也能夠為大數據提供數據的存儲和計算服務,而大數據則是人工智能發展的另一個重要基礎,所以從這個角度來看,云計算對于人工智能的發展還是比較重要的。當然,說到大數據還需要提一下物聯網,物聯網為大數據提供了主要的數據來源,可以說沒有物聯網也就不會有大數據。
云計算目前正在從IaaS向PaaS和SaaS發展,這個過程中與人工智能的關系會越來越密切,主要體現在以下三個方面:
第一:PaaS與人工智能的結合來完成行業垂直發展。當前云計算平臺正在全力打造自己的業務生態,業務生態其實也是云計算平臺的壁壘,而要想在云計算領域形成一個龐大的壁壘必然需要借助于人工智能技術。目前云計算平臺開放出來的一部分智能功能就可以直接結合到行業應用中,這會使得云計算向更多的行業領域垂直發展。
第二:SaaS與人工智能的結合來拓展云計算的應用邊界。當前終端應用的迭代速度越來越快,未來要想實現更快速且穩定的迭代,必然需要人工智能技術的參與。人工智能技術與云計算的結合能夠讓SaaS全面拓展自身的應用邊界。
第三:云計算與人工智能的結合降低開發難度。云計算與人工智能結合還會有一個明顯的好處,就是降低開發人員的工作難度,云計算平臺的資源整合能力會在人工智能的支持下,越來越強大。
“一臺會思考的機器”這一構想最早可以追溯到古希臘時期。 而自從電子計算技術問世以來(相對于本文中討論的某些主題而言),人工智能進化過程中的重要事件和里程碑包括以下內容:
以上就是速石對人工智能的一些介紹,想了解更多人工智能相關信息 歡迎掃碼關注小F(ID:iamfastone)獲取
- END -
我們有個AI研發云平臺
集成多種AI應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
它是能夠模擬智能人類行為的軟件。從更廣泛的角度來看,它是一種計算機應用程序,可以學習數據模式和洞察力,以智能地滿足特定客戶的痛點。
人工智能包括以下內容:
這些功能被用來為不同的用例構建人工智能軟件,其中最重要的是知識管理、虛擬輔助和自動駕駛汽車。隨著企業必須梳理大量數據以滿足客戶需求,對更快、更準確的軟件解決方案的需求也在增加。
1.Deep Vision
Deep Vision專為個人面部分析而設計,是針對安全性,安全性和商業智能的完美AI解決方案。該軟件可有效監視指定區域,以根據年齡,性別和其他詳細信息隨時間推移識別人員。
它使用面部人口統計模型來了解目標區域內隨時間變化的人口統計變化,或用于跟蹤客戶模式。此外,它還幫助廣告商和品牌與目標受眾建立聯系,以進行產品展示和廣告宣傳。該模型的創建是通過面部匹配來跟蹤個人,以量化訪客的訪問頻率,并幫助零售商立即找到潛在的顧客。
主要特點
2.Braina
它是少數支持多種語言的優秀AI軟件之一。Braina也可以用作虛擬語音識別軟件。借助于此,可以輕松快捷地將軟件語音轉換為文本。這個以生產力為中心的商業智能平臺支持100多種語言。
主要特點
3.Google Cloud Machine Learning Engine
無論您是希望開展新業務還是計劃對現有業務進行數字化轉型,Google AI技術和云解決方案都將幫助您取得令人難以置信的成功。Google Cloud Machine Learning Engine是用于訓練,調整和分析模型的理想解決方案。它帶有Compute Engine,Cloud SDK,Cloud Storage和Cloud SQL。
該軟件還提供了安全耐用的對象存儲的好處。其庫和命令行工具允許用戶利用Google Cloud。此外,還有用于SQL Server,MySQL和PostgreSQL的關系數據庫。
主要特點
4.Engati
使用Engati,用戶可以輕松創建規模和復雜程度不同的聊天機器人。它帶有150多個模板,因此個人可以快速開始使用聊天機器人。另外,該軟件還包括高級“對話流”構建器,高端集成功能以及用于在網站或任何可用渠道上部署漫游器的功能。
該平臺使聊天機器人的構建比以往更加輕松。有專門設計用于部署,構建,分析和訓練機器人的部分。此外,使用該軟件廣播的聊天機器人用戶信息,門戶網站用戶,實時聊天和廣告系列將使您受益匪淺。
主要特點
5.Azure機器學習工作室
Azure機器學習Studio是出色的交互式編程軟件之一,最適合創建可用于預測分析的商業智能系統。它是用戶用來將對象移動到界面的高級工具。
使用此軟件,您將有機會探索在云上構建創新的,基于AI的應用程序的新技術。Azure還提供了創新工具,人工智能服務和可擴展基礎架構的優勢。此外,您還將獲得構建智能解決方案所需的資源。
主要特點
6.Tensor Flow
Tensor Flow是廣受歡迎的開源軟件,對于尋求高級數值計算工具的專業人員而言,它是一個優秀的解決方案。它具有靈活的架構,可跨多個平臺(包括TPU,CPU和GPU)進行計算部署。另外,它可以部署在臺式機,服務器,移動設備和其他設備上。
這是Google的AI工程師和研究人員團隊的創意。Tensor Flow能夠進行深度學習和機器學習。而且,它對可在多個科學領域中使用的核心數學表達式提供了強大的支持。
它的一些核心組件包括自然語言處理,決策,聊天機器人,圖像識別,數據攝取,多語言,視覺搜索,語音識別,虛擬助手,機器學習和工作流自動化。
主要特點
7.Cortana
像Google Now和Siri一樣,Cortana是一個智能的個人助理,可以幫助用戶啟動應用程序,安排約會以及許多其他虛擬任務。它還能夠調整設備設置,例如將Wi-Fi切換為關閉和打開模式。該工具還可以回答您的查詢,設置提醒,開燈,在線訂購比薩等。
主要特點
8.IBM沃森
這是一個基于AI的計算機系統,旨在回答用戶的問題。IBM Watson與認知計算集成在一起-包括推理,機器學習,自然語言處理,人工智能等技術的融合。該工具以IBM首任首席執行官Thomas J. Watson爵士的名字命名,可將人工智能集成到各種業務流程中。它有助于提高組織的生產率和效率,從而可以獲得更好的結果。
通常,業務數據采用非結構化的形式,例如語音數據,段落等。借助IBM Watson,專業人員可以系統地整理和組織非結構化數據,以生成所需的信息。IBM Watson的處理速度約為80 teraflops,是人類回答問題能力的兩倍。
主要特點
9.Infosys Nia
Infosys Nia是一款高度評價的商業智能軟件,可以從舊版系統,人員和流程中收集信息。它將數據聚合到一個知識庫中,并自動執行IT流程和業務任務。該軟件旨在減少人工工作,并找到需要想象力,創造力和激情的客戶問題的解決方案。
用戶可以利用該平臺來獲得深入的見解,增強的知識以及探索機會,以簡化,優化和自動化復雜的組織流程。
主要特點
10.Playment
它是一個數據標記平臺,可以為機器人模型大規模生成訓練數據。Playment增強了處理無人機,制圖,自動駕駛和類似空間的業務。
該工具已由CYNGN,Drive AI和Starsky Robotics等多家知名研究機構和組織選擇。
主要特點
11. PyTorch
PyTorch是一個開源的機器學習庫,基于Torch,用于自然語言處理等應用程序。
PyTorch的前身是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內容,不僅更加靈活,支持動態圖,而且提供了Python接口。它是由Torch7團隊開發,是一個以Python優先的深度學習框架,不僅能夠實現強大的GPU加速,同時還支持動態神經網絡。
PyTorch既可以看作加入了GPU支持的numpy,同時也可以看成一個擁有自動求導功能的強大的深度神經網絡。
2022年9月,扎克伯格親自宣布,PyTorch 基金會已新鮮成立,并歸入 Linux 基金會旗下
主要特點
12.H20
它聲稱任何人都可以利用機器學習和預測分析的力量來解決業務難題??梢杂糜陬A測建模、保險分析、風險和欺詐分析、醫療保健、廣告技術和客戶情報。
它有兩種開源版本: Sparking Water 版和標準版 H2O ,被集成在 Apache Spark 中。也有付費的企業用戶支持。
13.OpenNN
作為一個為開發者和科研人員設計的具有高級理解力的人工智能,OpenNN 是一個實現神經網絡算法的 c++ 編程庫。
其關鍵特性包括深度的架構和快速的性能。其網站上可以查到豐富的文檔,包括一個解釋了神經網絡的基本知識的入門教程。OpenNN 的付費支持由一家從事預測分析的西班牙公司 Artelnics 提供。
14.NuPIC
由 Numenta 公司管理的 NuPIC 是一個基于分層暫時記憶Hierarchical Temporal Memory,HTM理論的開源人工智能項目。
從本質上講,HTM 試圖創建一個計算機系統來模仿人類大腦皮層。他們的目標是創造一個 “在許多認知任務上接近或者超越人類認知能力” 的機器。
除了開源許可,Numenta 還提供 NuPic 的商業許可協議,并且它還提供技術專利的許可證。
15.Oryx 2
構建在 Apache Spark 和 Kafka 之上的 Oryx 2 是一個專門針對大規模機器學習的應用程序開發框架。它采用一個獨特的三層 λ 架構。
開發者可以使用 Orys 2 創建新的應用程序,另外它還擁有一些預先構建的應用程序可以用于常見的大數據任務比如協同過濾、分類、回歸和聚類。大數據工具供應商 Cloudera 創造了最初的 Oryx 1 項目并且一直積極參與持續發展。
16.OpenCyc
由 Cycorp 公司開發的 OpenCyc 提供了對 Cyc 知識庫的訪問和常識推理引擎。它擁有超過 239,000 個條目,大約 2,093,000 個三元組和大約 69,000 owl:這是一種類似于鏈接到外部語義庫的命名空間。
它在富領域模型、語義數據集成、文本理解、特殊領域的專家系統和游戲 AI 中有著良好的應用。
該公司還提供另外兩個版本的 Cyc:一個可免費的用于科研但是不開源,和一個提供給企業的但是需要付費。
17.SystenML
最初由 IBM 開發, SystemML 現在是一個 Apache 大數據項目。
它提供了一個高度可伸縮的平臺,可以實現高等數學運算,并且它的算法用 R 或一種類似 python 的語法寫成。
企業已經在使用它來跟蹤汽車維修客戶服務、規劃機場交通和連接社會媒體數據與銀行客戶。它可以在 Spark 或 Hadoop 上運行。
18.Torch
Torch 把自己描述為:“一個優先使用 GPU 的,擁有機器學習算法廣泛支持的科學計算框架”,特點是靈活性和速度。
另外,Torch可以很容易的通過軟件包用于計算機視覺、機器學習、信號處理、并行處理、視頻、圖像、音頻和網絡等方面。依賴一個叫做 LuaJIT 的腳本語言,而 LuaJIT 是基于 Lua 的。
19.MLlib
MLlib 是 Spark 的可擴展機器學習庫。它集成了 Hadoop 并可以與 NumPy 和 R 進行交互操作。
它包括了許多機器學習算法如分類、決策樹、推薦、主題建模、集群、功能轉換、模型評價、生存分析、ML 管道架構、ML 持久、頻繁項集和序列模式挖掘、分布式線性代數和統計。
20.Mahout
它是 Apache 基金會項目,Mahout 是一個開源機器學習框架。
主要特點:
目前使用 Mahout 的公司有 埃森哲咨詢公司、Adobe、英特爾、領英、Twitter、Foursquare、雅虎和其他許多公司。
21.Deeplearning4j
Deeplearning4j 是一個 java 虛擬機(JVM)的開源深度學習庫。它運行在分布式環境并且集成在Apache Spark 和 Hadoop 中。這使它可以配置深度神經網絡,并且它與Scala 、 Java和 其他 JVM 語言兼容。
22.Caffe
Caffe是由賈揚清在加州大學伯克利分校讀博時創造的, 是一個基于表達體系結構和可擴展代碼的深度學習框架。使它聲名鵲起的是速度,這使它非常受到研究人員和企業用戶的歡迎。
根據其網站所言,它可以在一天之內只用一個 NVIDIA K40 GPU 處理 6000 萬多個圖像。它是由伯克利視野和學習中心(BVLC)管理的,并且由 NVIDIA 和亞馬遜等公司資助來支持它的發展。
- END -
我們有個AI研發云平臺
集成多種AI應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群?
掃碼免費試用,送200元體驗金,入股不虧~
更多電子書歡迎掃碼關注小F(ID:iamfastone)獲取
你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關于為應用定義的云平臺:
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇
楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500