深色模式
算力资源选型指南
一、资源类型概览
太初云平台面向不同算力需求与使用场景,提供多种资源形态,覆盖从通用计算到高性能 GPU 计算、从弹性任务到极致性能的完整需求谱系。目前主要包括以下四类资源:
- GPU 云服务器
- 通算型云服务器(CPU 云服务器)
- GPU 容器
- GPU 裸金属服务器
不同资源在计费方式、性能隔离、运维方式、数据持久化能力以及适用场景等方面存在显著差异。用户在选择前,建议结合业务连续性、性能要求、成本敏感度和运维能力进行综合判断。
二、各类资源详细说明
2.1 GPU 云服务器
定义说明
GPU 云服务器是在虚拟化环境中提供的 GPU 计算实例,用户以"云主机"的方式使用 GPU 算力,具备较好的弹性与易用性。
1. 计费特性
- 按实例规格计费(GPU + CPU + 内存)。
- 实例创建后即开始计费,即使关机状态仍会产生费用,主要原因在于 GPU 资源已被独占预留(以平台实际规则为准)。
- 使用云盘作为系统盘和数据盘,云盘单独计费。
2. 使用与运维特点
- 形态接近传统云服务器,学习成本低。
- 适合长期运行服务或训练任务。
- 可自定义运行环境。
3. 典型使用场景
- AI 模型训练与微调(中长期任务)。
- 推理服务常驻部署(如 API 服务)。
- 对环境稳定性和可控性要求较高的业务。
2.2 通算型云服务器(CPU 云服务器)
1. 定义说明
不包含 GPU 的标准云服务器,主要提供 CPU 与内存资源。
2. 计费特性
- 按规格和使用时长计费(包年包月/按量计费)。
- 关机状态下仍会产生费用(以平台实际规则为准)。
- 使用云盘作为系统盘和数据盘,云盘单独计费。
3. 典型使用场景
- Web 服务、管理后台、业务系统。
- AI 业务中的调度层、控制层、前后处理服务。
- 不涉及大规模并行计算的场景。
2.3 GPU 容器
1. 定义说明
GPU 容器基于容器技术(Docker)提供 GPU 算力,强调轻量化、快速启动和高弹性,适合任务型和批处理场景。
2. 计费特性
- 按容器实际运行时长计费(包年包月/按量计费)。
- 容器停止(关机)后不再计费,非常适合间歇性任务。
- 计算资源释放迅速,成本可控。
3. 重要使用注意事项
- 容器本身是"无状态"的,容器删除后,本地数据会随之消失。
- 强烈建议将数据写入挂载的文件存储(如共享文件系统或对象存储),以确保数据持久化。
- 在释放 GPU 容器资源时,挂载的文件存储默认不会随容器一同释放,可用于多次复用。
4. 典型使用场景
- 短时或周期性 GPU 任务(如推理批处理、实验性训练)。
- CI/CD、自动化评测、离线计算。
- 对成本敏感、任务弹性要求高的用户。
2.4 GPU 裸金属服务器
1. 定义说明
GPU 裸金属服务器提供物理级别的 GPU 服务器资源,不经过虚拟化层,用户可直接使用整机硬件。裸金属的大量采购建议直接联系商务。
2. 计费特性
- 按整机规格计费(包年包月)。
- 资源独占,通常适合中长期使用。
3. 性能与运维特点
- 无虚拟化开销,性能最优,硬件隔离最强。
- 可完全自定义底层驱动、固件和网络配置。
- 对用户运维能力要求较高。
4. 典型使用场景
- 大规模模型训练(多卡、高带宽通信)。
- 对 GPU 性能、时延和稳定性极致敏感的场景。
- 高端科研、自动驾驶、复杂仿真等任务。
三、资源选型建议
在实际选择时,可从以下维度进行判断:
1. 任务运行时长
- 长期、持续运行:优先选择 GPU 云服务器或 GPU 裸金属。
- 短时、间歇性任务:优先选择 GPU 容器。
2. 性能与隔离需求
- 极致性能、完全独占:GPU 裸金属。
- 性能与易用性平衡:GPU 云服务器。
3. 成本敏感度
- 对"关机仍计费"敏感:避免使用 GPU 云服务器,选择 GPU 容器。
- 可接受资源长期占用:GPU 云服务器或裸金属。
4. 运维与使用门槛
- 希望快速上手、低运维:GPU 云服务器、GPU 容器。
- 具备专业运维能力:GPU 裸金属服务器。
四、总结
- GPU 云服务器:稳定、易用,适合长期运行,但关机仍计费。
- GPU 容器:弹性高、成本友好,需特别注意数据持久化方式。
- GPU 裸金属服务器:性能最强,适合高端与重载场景。
- 通算型云服务器:为 AI 与业务系统提供基础计算支撑。
建议用户在正式投入生产前,通过小规模测试验证资源形态是否匹配业务特性,从而在性能、成本与运维复杂度之间取得最佳平衡。