资源组名称 | 节点名称 | GPU | 内存 |
---|---|---|---|
RTX2080 | node01 | 8*GeForce RTX 2080 Ti | 384G |
node02 | 8*GeForce RTX 2080 Ti | 384G | |
node03 | 8*GeForce RTX 2080 Ti | 384G | |
node04 | 8*GeForce RTX 2080 Ti | 384G | |
V100 | node05 | 8*Tesla V100S | 1T |
node06 | 8*Tesla V100S | 1T | |
node07 | 8*Tesla V100S | 1T | |
node08 | 8*Tesla V100S | 512G | |
A100-40G | node09 | 8*A100-SXM4-40GB | 1T |
node10 | 8*A100-SXM4-40GB | 1T | |
node11 | 8*A100-SXM4-40GB | 1T | |
A100-80G | node12 | 8*A100-SXM4-80GB | 1T |
node13 | 8*A100-SXM4-80GB | 1T | |
node14 | 8*A100-SXM4-80GB | 1T | |
node15 | 8*A100-SXM4-80GB | 1T | |
node16 | 8*A100-SXM4-80GB | 1T | |
node17 | 8*A100-SXM4-80GB | 1T | |
node18 | 8*A100-SXM4-80GB | 1T | |
A800 | node19 | 8*A800-SXM4-80GB | 1T |
node20 | 8*A800-SXM4-80GB | 1T | |
node21 | 8*A800-SXM4-80GB | 1T | |
node22 | 8*A800-SXM4-80GB | 1T | |
node23 | 8*A800-SXM4-80GB | 1T |
集群管理软件采用AIStation,平台自带了如下镜像:
镜像名称 | 镜像用途 |
---|---|
PyTorch | 开源的python机器学习库 |
TensorFlow | 用于各类机器学习算法的编程实现 |
Caffe | (全称:Convolutional Architecture for Fast Feature Embedding),是一个计算CNN相关算法的框架 |
MxNet | 一个开源深度学习软件框架,用于训练及部署深度神经网络 |
PaddlePaddle | 飞桨开源框架是一个易用、高效、灵活、可扩展的深度学习框架 |
集群采用ceph分布式存储作为底层存储,提供212T存储容量。集群中所有计算节点都可通过单一文件目录读写存储系统中的文件。