硬件资源

资源组名称 节点名称 GPU 内存
RTX2080 node01 8*GeForce RTX 2080 Ti 384G
node02 8*GeForce RTX 2080 Ti 384G
node03 8*GeForce RTX 2080 Ti 384G
node04 8*GeForce RTX 2080 Ti 384G
V100 node05 8*Tesla V100S 1T
node06 8*Tesla V100S 1T
node07 8*Tesla V100S 1T
node08 8*Tesla V100S 512G
A100-40G node09 8*A100-SXM4-40GB 1T
node10 8*A100-SXM4-40GB 1T
node11 8*A100-SXM4-40GB 1T
A100-80G node12 8*A100-SXM4-80GB 1T
node13 8*A100-SXM4-80GB 1T
node14 8*A100-SXM4-80GB 1T
node15 8*A100-SXM4-80GB 1T
node16 8*A100-SXM4-80GB 1T
node17 8*A100-SXM4-80GB 1T
node18 8*A100-SXM4-80GB 1T
A800 node19 8*A800-SXM4-80GB 1T
node20 8*A800-SXM4-80GB 1T
node21 8*A800-SXM4-80GB 1T
node22 8*A800-SXM4-80GB 1T
node23 8*A800-SXM4-80GB 1T

软件资源

集群管理软件采用AIStation,平台自带了如下镜像:

镜像名称 镜像用途
PyTorch 开源的python机器学习库
TensorFlow 用于各类机器学习算法的编程实现
Caffe (全称:Convolutional Architecture for Fast Feature Embedding),是一个计算CNN相关算法的框架
MxNet 一个开源深度学习软件框架,用于训练及部署深度神经网络
PaddlePaddle 飞桨开源框架是一个易用、高效、灵活、可扩展的深度学习框架

存储资源

集群采用ceph分布式存储作为底层存储,提供212T存储容量。集群中所有计算节点都可通过单一文件目录读写存储系统中的文件。