Skip to content
目录

算力资源选型指南

一、资源类型概览

太初云平台面向不同算力需求与使用场景,提供多种资源形态,覆盖从通用计算到高性能 GPU 计算、从弹性任务到极致性能的完整需求谱系。目前主要包括以下四类资源:

  • GPU 云服务器
  • 通算型云服务器(CPU 云服务器)
  • GPU 容器
  • GPU 裸金属服务器

不同资源在计费方式、性能隔离、运维方式、数据持久化能力以及适用场景等方面存在显著差异。用户在选择前,建议结合业务连续性、性能要求、成本敏感度和运维能力进行综合判断。

二、各类资源详细说明

2.1 GPU 云服务器

定义说明

GPU 云服务器是在虚拟化环境中提供的 GPU 计算实例,用户以"云主机"的方式使用 GPU 算力,具备较好的弹性与易用性。

1. 计费特性

  • 按实例规格计费(GPU + CPU + 内存)。
  • 实例创建后即开始计费,即使关机状态仍会产生费用,主要原因在于 GPU 资源已被独占预留(以平台实际规则为准)。
  • 使用云盘作为系统盘和数据盘,云盘单独计费。

2. 使用与运维特点

  • 形态接近传统云服务器,学习成本低。
  • 适合长期运行服务或训练任务。
  • 可自定义运行环境。

3. 典型使用场景

  • AI 模型训练与微调(中长期任务)。
  • 推理服务常驻部署(如 API 服务)。
  • 对环境稳定性和可控性要求较高的业务。

2.2 通算型云服务器(CPU 云服务器)

1. 定义说明

不包含 GPU 的标准云服务器,主要提供 CPU 与内存资源。

2. 计费特性

  • 按规格和使用时长计费(包年包月/按量计费)。
  • 关机状态下仍会产生费用(以平台实际规则为准)。
  • 使用云盘作为系统盘和数据盘,云盘单独计费。

3. 典型使用场景

  • Web 服务、管理后台、业务系统。
  • AI 业务中的调度层、控制层、前后处理服务。
  • 不涉及大规模并行计算的场景。

2.3 GPU 容器

1. 定义说明

GPU 容器基于容器技术(Docker)提供 GPU 算力,强调轻量化、快速启动和高弹性,适合任务型和批处理场景。

2. 计费特性

  • 按容器实际运行时长计费(包年包月/按量计费)。
  • 容器停止(关机)后不再计费,非常适合间歇性任务。
  • 计算资源释放迅速,成本可控。

3. 重要使用注意事项

  • 容器本身是"无状态"的,容器删除后,本地数据会随之消失。
  • 强烈建议将数据写入挂载的文件存储(如共享文件系统或对象存储),以确保数据持久化。
  • 在释放 GPU 容器资源时,挂载的文件存储默认不会随容器一同释放,可用于多次复用。

4. 典型使用场景

  • 短时或周期性 GPU 任务(如推理批处理、实验性训练)。
  • CI/CD、自动化评测、离线计算。
  • 对成本敏感、任务弹性要求高的用户。

2.4 GPU 裸金属服务器

1. 定义说明

GPU 裸金属服务器提供物理级别的 GPU 服务器资源,不经过虚拟化层,用户可直接使用整机硬件。裸金属的大量采购建议直接联系商务。

2. 计费特性

  • 按整机规格计费(包年包月)。
  • 资源独占,通常适合中长期使用。

3. 性能与运维特点

  • 无虚拟化开销,性能最优,硬件隔离最强。
  • 可完全自定义底层驱动、固件和网络配置。
  • 对用户运维能力要求较高。

4. 典型使用场景

  • 大规模模型训练(多卡、高带宽通信)。
  • 对 GPU 性能、时延和稳定性极致敏感的场景。
  • 高端科研、自动驾驶、复杂仿真等任务。

三、资源选型建议

在实际选择时,可从以下维度进行判断:

1. 任务运行时长

  • 长期、持续运行:优先选择 GPU 云服务器或 GPU 裸金属。
  • 短时、间歇性任务:优先选择 GPU 容器。

2. 性能与隔离需求

  • 极致性能、完全独占:GPU 裸金属。
  • 性能与易用性平衡:GPU 云服务器。

3. 成本敏感度

  • 对"关机仍计费"敏感:避免使用 GPU 云服务器,选择 GPU 容器。
  • 可接受资源长期占用:GPU 云服务器或裸金属。

4. 运维与使用门槛

  • 希望快速上手、低运维:GPU 云服务器、GPU 容器。
  • 具备专业运维能力:GPU 裸金属服务器。

四、总结

  • GPU 云服务器:稳定、易用,适合长期运行,但关机仍计费。
  • GPU 容器:弹性高、成本友好,需特别注意数据持久化方式。
  • GPU 裸金属服务器:性能最强,适合高端与重载场景。
  • 通算型云服务器:为 AI 与业务系统提供基础计算支撑。

建议用户在正式投入生产前,通过小规模测试验证资源形态是否匹配业务特性,从而在性能、成本与运维复杂度之间取得最佳平衡。