Sirius關(guān)注機(jī)器學(xué)習(xí)研發(fā)團(tuán)隊(duì)在業(yè)務(wù)層之外的所有需求,希望以最簡(jiǎn)單的方式,合理分配GPU集群資源給工程師團(tuán)隊(duì),優(yōu)化資源使用效率。同時(shí),Sirius還簡(jiǎn)化并整合了數(shù)據(jù)管理、實(shí)驗(yàn)管理和應(yīng)用發(fā)布等機(jī)器學(xué)習(xí)流程到一個(gè)平臺(tái),便于統(tǒng)一管理。
預(yù)約演示 →作為 NVIDIA Inception Program 的一員,速石科技致力于彌合研發(fā)團(tuán)隊(duì)與AI基礎(chǔ)設(shè)施間的差距,簡(jiǎn)化AI模型的研發(fā)流程,借助自身優(yōu)勢(shì)減少研發(fā)過程中技術(shù)和流程的重復(fù),大幅優(yōu)化企業(yè)的研發(fā)效率和體驗(yàn)。
速石科技為企業(yè)提供端到端的一站式機(jī)器學(xué)習(xí)研發(fā)平臺(tái)——Sirius,并為AI/ML提供全生命周期的產(chǎn)研支持,實(shí)現(xiàn)AI/ML模型的部署和落地,從而幫助企業(yè)更快地將ML/LLM模型推向生產(chǎn)環(huán)境,提升整體產(chǎn)研效率,助力企業(yè)實(shí)現(xiàn)自身商業(yè)價(jià)值。
機(jī)器學(xué)習(xí)的體系復(fù)雜而龐大,諸如數(shù)據(jù)處理、生產(chǎn)環(huán)境部署、算力資源管理、多個(gè)開發(fā)環(huán)境的管理等,會(huì)降低企業(yè)的研發(fā)效率和研發(fā)人員的工作體驗(yàn)。
MLOps就是將機(jī)器學(xué)習(xí)(ML)、開發(fā)(Dev)和運(yùn)維(Ops)串連為一個(gè)整體,向人工智能領(lǐng)域提供了系統(tǒng)性的生產(chǎn)過程管理方案,從而針對(duì)性地解決前述AI領(lǐng)域問題。
GPU集群的自動(dòng)配置,自動(dòng)部署
存儲(chǔ)統(tǒng)一配置
資源監(jiān)控、告警以及運(yùn)營分析
面向機(jī)器學(xué)習(xí)負(fù)載的集群調(diào)度器
豐富的企業(yè)級(jí)調(diào)度策略配置
結(jié)合并行化計(jì)算的調(diào)度框架,提升訓(xùn)練效率
數(shù)據(jù)權(quán)限分級(jí)
數(shù)據(jù)可視化
版本管理
數(shù)據(jù)清洗及標(biāo)注
面向LLM的訓(xùn)練數(shù)據(jù)格式化
面向不同類型推理服務(wù)的網(wǎng)關(guān)
服務(wù)規(guī)模自動(dòng)伸縮
Web端可視化向?qū)渲?/p>
可觀測(cè)性指標(biāo)
Sirius內(nèi)置眾多機(jī)器學(xué)習(xí)常用鏡像,讓算法工程師能夠通過直觀的網(wǎng)頁界面快速拉起開發(fā)環(huán)境,并以他們熟悉的方式(如Jupyter/SSH)接入。為了進(jìn)一步提高開發(fā)效率,我們?cè)试S用戶將定制化的開發(fā)環(huán)境保存為私有鏡像,從而消除重復(fù)配置環(huán)境的需要,確保工程師能夠?qū)⒕性诤诵臉I(yè)務(wù)開發(fā)上。
查看AI云平臺(tái)Sirius作為全方位的機(jī)器學(xué)習(xí)平臺(tái),支持用戶根據(jù)需要自定義數(shù)據(jù)集和模型,并提供了數(shù)據(jù)集與模型的版本管理功能。平臺(tái)的實(shí)驗(yàn)管理模塊能夠自動(dòng)記錄提交的計(jì)算任務(wù),確保所有實(shí)驗(yàn)活動(dòng)可復(fù)現(xiàn)、可追蹤。此外,當(dāng)團(tuán)隊(duì)需要將模型部署為服務(wù)時(shí),我們的應(yīng)用發(fā)布功能可以大幅簡(jiǎn)化部署流程,幫助團(tuán)隊(duì)快速推進(jìn)應(yīng)用的上線過程。
資源分配是Sirius的核心能力,平臺(tái)支持將單張GPU卡拆分給多個(gè)用戶使用,允許對(duì)用戶及團(tuán)隊(duì)可用的GPU、CPU及內(nèi)存資源進(jìn)行上限配置。通過靈活的調(diào)度策略,Sirius能夠精準(zhǔn)、合理地調(diào)配GPU資源,最大化GPU集群的使用效率。
Sirius將機(jī)器學(xué)習(xí)的研發(fā)流程統(tǒng)一集成在平臺(tái)內(nèi)部,使工程師能夠直觀地實(shí)時(shí)監(jiān)控機(jī)器學(xué)習(xí)任務(wù)的執(zhí)行狀態(tài)和資源消耗,并根據(jù)關(guān)鍵監(jiān)控指標(biāo)設(shè)定預(yù)警。同時(shí),管理員可以全面管理和監(jiān)控所有任務(wù)及計(jì)算節(jié)點(diǎn)的運(yùn)行情況。
應(yīng)用
Pytorch、TensorFlow、MXNet
場(chǎng)景
機(jī)器人控制
客戶挑戰(zhàn)
本地資源有限,需要給研究員合理分配GPU資源;
使用工作站無法滿足一些規(guī)模較大的模型訓(xùn)練的算力需求;
實(shí)驗(yàn)室沒有專人負(fù)責(zé)基礎(chǔ)架構(gòu),需要進(jìn)行管理并提供基本的運(yùn)維監(jiān)控;
研究員希望保持GPU資源的接入方式不變。
應(yīng)用
Pytorch、TensorFlow、MXNet
場(chǎng)景
嵌入式環(huán)境模型開發(fā)
客戶挑戰(zhàn)
不同團(tuán)隊(duì)共享GPU,資源分配手動(dòng)完成,效率很低且管理復(fù)雜;
開發(fā)環(huán)境管理混亂,且因網(wǎng)絡(luò)限制,安裝流程繁瑣,影響開發(fā)團(tuán)隊(duì)效率;
所有GPU的使用情況沒有監(jiān)控,無法得知資源使用效率;
實(shí)驗(yàn)管理、超參數(shù)調(diào)優(yōu)、分布式訓(xùn)練等需求無法滿足。
應(yīng)用
基于Yolo v5的圖形檢測(cè)應(yīng)用
場(chǎng)景
實(shí)時(shí)推理
客戶挑戰(zhàn)
GPU資源有限且資源利用率不高,難以支撐快速增長(zhǎng)的業(yè)務(wù)需求;
缺乏IT人員,難以針對(duì)所有GPU資源、任務(wù)進(jìn)行監(jiān)控和告警;
現(xiàn)有推理平臺(tái)較為陳舊,無法根據(jù)模型規(guī)模自動(dòng)分配資源,導(dǎo)致大量珍貴的GPU資源浪費(fèi)。
應(yīng)用
基于Pytorch、TensorFlow、MXNet、Transformer框架的機(jī)器學(xué)習(xí)訓(xùn)練項(xiàng)目
場(chǎng)景
大語言模型
客戶挑戰(zhàn)
ML基礎(chǔ)架構(gòu)組件繁多,構(gòu)建過程復(fù)雜易出錯(cuò),標(biāo)準(zhǔn)化需要高度專業(yè)的人力投入;
并行化計(jì)算依賴基礎(chǔ)架構(gòu)層的軟硬件框架,傳統(tǒng)模式下資源管理和計(jì)算并行需要大量手工調(diào)試工作;
模型開發(fā)依賴的高質(zhì)量數(shù)據(jù),需要大量的人工清洗、標(biāo)注和格式轉(zhuǎn)換工作。
應(yīng)用
Pytorch、TensorFlow、MXNet
場(chǎng)景
機(jī)器人控制
客戶挑戰(zhàn)
本地資源有限,需要給研究員合理分配GPU資源;
使用工作站無法滿足一些規(guī)模較大的模型訓(xùn)練的算力需求;
實(shí)驗(yàn)室沒有專人負(fù)責(zé)基礎(chǔ)架構(gòu),需要進(jìn)行管理并提供基本的運(yùn)維監(jiān)控;
研究員希望保持GPU資源的接入方式不變。
應(yīng)用
Pytorch、TensorFlow、MXNet
場(chǎng)景
嵌入式環(huán)境模型開發(fā)
客戶挑戰(zhàn)
不同團(tuán)隊(duì)共享GPU,資源分配手動(dòng)完成,效率很低且管理復(fù)雜;
開發(fā)環(huán)境管理混亂,且因網(wǎng)絡(luò)限制,安裝流程繁瑣,影響開發(fā)團(tuán)隊(duì)效率;
所有GPU的使用情況沒有監(jiān)控,無法得知資源使用效率;
實(shí)驗(yàn)管理、超參數(shù)調(diào)優(yōu)、分布式訓(xùn)練等需求無法滿足。
速石科技行業(yè)知識(shí)庫聊天應(yīng)用Megrez,面向企業(yè)客戶提供大語言模型的私有化部署能力,解決了許多企業(yè)用戶關(guān)注的數(shù)據(jù)安全問題,允許用戶自定義行業(yè)知識(shí)庫,實(shí)現(xiàn)領(lǐng)域知識(shí)的問答。
速石科技支持用戶在平臺(tái)上自定義這款應(yīng)用的部署,實(shí)現(xiàn)從基礎(chǔ)架構(gòu)到最終應(yīng)用的端到端掌控。
技術(shù)咨詢 →在線咨詢
公眾號(hào)
掃碼關(guān)注我們
微信咨詢
添加小F@速石科技
說出你的應(yīng)用
我們就有故事
免費(fèi)試用
上海速石信息科技有限公司 ?2025 fastone 滬ICP備18017266號(hào)-1