解決方案
運用(yòng)科(kē)技(jì)進行(xíng)整合性創新
恒聯雲容器(qì)平台

· 雲容器(qì)平台使用(yòng)主流容器(qì)編排工(gōng)具kubernetes搭建容器(qì)集群,并提供RBAC控制(zhì),容器(q☆ì)及服務的(de)生(shēng)命周期管理(lǐ)和(hé)資源分(fēn)配;

· 定制(zhì)化(huà)的(de)應用(yòng)商店(diàn)由Helm提供,可(kě)為(wèi)多(duō)用(yòng)戶₽提供公開(kāi)或用(yòng)戶定制(zhì)的(de)應用(yòng)快(kuài)速部署;

· 制(zhì)化(huà)的(de)私有(yǒu)容器(qì)鏡像倉庫由Harbor提供,可(kě)為(wèiδ)多(duō)用(yòng)戶提供研究用(yòng)戶的(de)容器(qì)鏡像;

· 監控及日(rì)志(zhì)分(fēn)析由Prometheus和(hé)ELK提供,可(kě)實時(s←hí)監控平台內(nèi)服務器(qì)、虛拟機(jī)、容器(qì)的(de)使用(yòng)情況;

· 方便結合CI/CD工(gōng)具,如(rú)Jenkins。提供原廠(chǎng)CI/CD工(gōng)具Rancher pipline;

· 提供GPU sharing。

DGX加速的(de)數(shù)據中心
DGX系統支持NVIDIA的(de)AI軟件(jiàn),包括為(wèi)DGX優化(huà)的(dαe)操作(zuò)系統(OS dgx),集群管理(lǐ)和(hé)業(yè)務流程工(gōng)具,可(kě)&在NGC平台上(shàng)下(xià)載的(de)庫和(hé)深度學習(xí)框架(為(wèi)DGX系統優化(h≈uà))。
圖1
圖2
推薦說(shuō)明(míng):
NVIDIA推薦的(de)AI軟件(jiàn)棧建立在針對(duì)DGX硬件(jiàn)系統優化(huà)的(de)OS系統,ub≠untu操作(zuò)系統上(shàng),包括認證的(de)GPU驅動,網絡應用(yòng)組合,預設的(de)NFS服務器(qì)配置,NVIDIA數(shù→)據中心GPU管理(lǐ)工(gōng)具(DCGM),支持GPU的(de)docker容器(qì),NVIDIA CUDA® SDK, cuDNN, NCCL和(hé)其他(tā•)NVIDIA加速庫,以及NVLINK/NVswitch技(jì)術(shù)。

用(yòng)戶可(kě)自(zì)行(xíng)部署推薦的(de)DGX系統管理(lǐ)應用(yòng)平台來(lái)管理(lǐε)DGX系統,該管理(lǐ)應用(yòng)平台也(yě)支持其他(tā)服務器(qì)。該平台是(shì)由多(duō)個(gè)運行(xíng)在容器(qì)中的(de)不(bù)同服務組≈件(jiàn)組成,示意圖2。
·該管理(lǐ)平台利用(yòng)DHCP和(hé)PXE技(jì)術(shù)實現(xiàn)DGX OS&的(de)網絡遠(yuǎn)程安裝;
·Ansible可(kě)以遠(yuǎn)程實現(xiàn)分(fēn)發應用(yòng)和(hé)庫;
·可(kě)以 使用(yòng)kubernetes對(duì)容器(qì)實例進行(xíng)∑管理(lǐ);
·可(kě)使用(yòng)SLURM對(duì)DGX系統提交用(yòng)戶的(de)作(zuò)業(yè)任務,并實現↕(xiàn)作(zuò)業(yè)任務的(de)調度;
·推薦使用(yòng)Prometheus為(wèi)DGX系統做(zuò)監控;
·推薦使用(yòng)Grafana作(zuò)為(wèi)數(shù)據可(kě)視(shì)化(huà)工(gōng)具;
·支持資源計(jì)費(fèi)。
産品功能(néng)
恒聯提供豐富的(de)産品功能(néng)為(wèi)用(yòng)戶解決問(wèn)題
海(hǎi)量數(shù)據存儲管理(lǐ)
Massive data storage management
通(tōng)過分(fēn)布式文(wén)件(jiàn)系統,可(kě)将海(hǎi)量各類原始數(shù)據、結果數(shù)據進行(xíng)快(kuài)速存儲,并通(tōng')過自(zì)帶副本機(jī)制(zhì),完成對(duì)數(shù)據的(de)多(duō)份備份。
靈活多(duō)樣數(shù)據處理(lǐ)引擎
Flexible data processing engine
通(tōng)過批量計(jì)算(suàn)、內(nèi)存計(jì)算(suàn)框架、流式計(jì)算(suàn)框架、多(duō)維數(≈shù)據分(fēn)析計(jì)算(suàn)、圖計(jì)算(suàn)等多(duō)種技(jì)術(shù)±支持多(duō)種應用(yòng),計(jì)算(suàn)引擎實現(xiàn)“術(shù)業(yè)有(yǒu)專攻”。
海(hǎi)量數(shù)據快(kuài)速查詢
Massive data quick query
通(tōng)過低(dī)成本的(de)硬件(jiàn)提供高(gāo)性能(néng)的(de)數(shù)據加載、索引和(‌hé)查詢,具備對(duì)海(hǎi)量數(shù)據快(kuài)速查詢響應能(néng)力。
優化(huà)的(de)分(fēn)布式數(shù)據庫
Optimized distributed database
面向結構化(huà)數(shù)據分(fēn)析設計(jì)開(kāi)發的(de),經過優化(huà)的(de)MPP查詢引擎,能(nén©g)夠有(yǒu)效處理(lǐ)PB級别的(de)數(shù)據量;性能(néng)超群TB數(shù)據秒(miǎo)級返回。
數(shù)據遷移
data migration
支持關系型數(shù)據庫、大(dà)數(shù)據(OLAP)等數(shù)據源間(jiān)的(de)數(shù)據遷移。緻力海(hǎi)量數(shù)據遷移需求下(xi♥à),解決遠(yuǎn)距離(lí)、毫秒(miǎo)級異步數(shù)據傳輸難題;同時(shí)數(shù)據遷移輕松構建安全、可(kě)擴展、高(gāo)可(kě)↑用(yòng)的(de)數(shù)據傳輸架構。
系統高(gāo)可(kě)用(yòng)性
System high availability
結合各類分(fēn)布式軟件(jiàn)架構特性,通(tōng)過引入HA熱(rè)備方式,進一(yī)步提升系統的(de')高(gāo)可(kě)靠和(hé)高(gāo)可(kě)用(yòng)性。
系統運維監控
System operation and maintenance monitor
系統運維監控中心提供産品套件(jiàn)的(de)快(kuài)速安裝部署、集群性能(néng)監控、組件(jiàn)服務管理(lǐ)、系統告警分(fēn)析、主機(jī)管理(lǐ)、版本Ω管理(lǐ)、日(rì)志(zhì)管理(lǐ)等計(jì)算(suàn)平台運維監控服務。通(tōng)過統一(yī)的(de)圖形化(huà)界面實現(xià♣n)對(duì)大(dà)數(shù)據平台運行(xíng)服務狀況的(de)實時(shí)監控和(hé)管理(lǐ),實現(xiàn)運維的(de)健∏康化(huà)、自(zì)動化(huà)、智能(néng)化(huà),大(dà)大(dà)降低(dī)了(le)人(rén)力成本的(de)投入。
資源統一(yī)調配管理(lǐ)
Unified resource management
通(tōng)過統一(yī)的(de)資源調度技(jì)術(shù),可(kě)實現(xiàn)底層硬件(jiàn)資源的(de)共享。将共享的(de)各類計(jì)算(suàn)資源根÷據需要(yào)劃分(fēn)為(wèi)多(duō)個(gè)邏輯運行(xíng)單元,按需動态分(fēn)配給不(bù)同負載的(de)應用(yòng)±,實現(xiàn)一(yī)個(gè)集群支撐多(duō)套不(bù)同的(de)應用(yòng)運行(xíng),在提升集群設備資源利用(yòn₽g)率的(de)同時(shí),降低(dī)日(rì)常運維工(gōng)作(zuò)量。
數(shù)據資産
Data asset
基于元數(shù)據、主數(shù)據等重要(yào)元素,構建數(shù)據資産管理(lǐ)平台,實現(xiàn)數(shù)據資産定義、可(kě)視(shì)化(huà∏)等管理(lǐ)能(néng)力,數(shù)據安全提供數(shù)據訪問(wèn)權限管理(lǐ)、隐私策略管理(lǐ)、數(shù)據加解密,依托大(dà)數(≠shù)據平台實現(xiàn)數(shù)據全生(shēng)命周期的(de)管理(lǐ),支持以價值挖掘為(wèi)導向的(de)✘數(shù)據應用(yòng)開(kāi)發。
任務調度
Task scheduling
擁有(yǒu)先進可(kě)靠的(de)自(zì)動化(huà)任務管理(lǐ)調度功能(néng),提供可(kě)操作(≈zuò)的(de) web 圖形化(huà)管理(lǐ)滿足多(duō)種場(chǎng)景下(xià)各種複雜(zá→)的(de)定時(shí)任務、Cron 任務調度和(hé)任務執行(xíng)生(shēng)命周期管理(lǐ)。有(yǒu)較好(hǎo)的(de)伸縮性和(hé)擴展性,提供業(yè)務÷日(rì)志(zhì)記錄器(qì)。支持節點監控、任務執行(xíng)監控,支持暫停/恢複任務,以及終止運行(xíng)中任務,支持在線配置調度任務入參和(hé)在線查看(kàn)調度結果₹。提供海(hǎi)量任務的(de)情況下(xià),嚴格精确定時(shí)觸發任務服務。
QQ
返回頂部