AI落地的技术挑战
资源管理复杂
算力管理不敏捷
生态整合交付复杂
拥抱大模型门槛高
运营专业复杂
模型开发困难
快速形成应用场景
开发效率低
核心功能
- Core functions -

异构算力协同
多区多类型GPU算力/通用算力/网络资源(IB、RoCE)/存储资源(NVMe、并行文件存储和对象存储)的统一调度管理,支持GPU Direct、NVLink等技术,支持从模型微调到训练的全场景业务需求。

智能算力调度
具备千卡万卡的分布式调度与管理能力,支持优先级/预留/暂停/恢复/公平共享和抢占式调度;个性化安置组策略自动分配和管理算力资源,大幅缩短任务执行时间;算力资源按应用、按需随时匹配,自动切换。

算力池化与精分
支持组建共享算力池和专属算力池;支持显卡多实例、直通(单卡、多卡)、vGPU方案,部分卡支持显存算力资源细粒度切分,有效保证隔离性和安全性;轻松应对不同颗粒度的算力资源需求。

一站式AI计算
提供算法代码编写、模型训练、模型微调、模型管理、模型部署推理等服务;提供镜像仓库/函数库/驱动/深度学习框架/数据集等支持;集成行业内多家厂商生态应用,助力用户全场景的AI业务实现落地。

故障检测与自愈
通过统一运维管理平台,规范化、可视化高效运维资源,帮助管理员实现精细化资源分配,结合多维资源监控,发现故障、启动自愈服务,减少运时间,提高算力利用效率。

全流程自服务式供给
提供用户自助服务能力,包括账户创建、账户充值、资源申请、在线开通、资源使用再到资源释放的全流程服务。可选共享资源按任务占用卡时结算或专属资源按配置结算,提升用户使用体验和资源供给效率。
产品架构
- Architecture -
