⚡ 大模型训练时间估算

📊 B

示例：DeepSeek R1 32B → 输入 32

💾 B

1B tokens ≈ 约 3-4GB 文本数据

🖥️ 个

⚙️ TFLOPS

参考值：A100 FP16 ≈ 312, H100 ≈ 989

📈 %

典型范围：30% - 70%

GPU 利用率不能超过 100%！

计算公式

训练时间 (天) =

6 × T × PN × FLOPS × U × 86400

注：6 是每 Token 的浮点运算次数的经验值

大模型训练是一个资源密集型任务，准确估算训练时间有助于：

提高GPU利用率可以显著缩短训练时间

使用更高算力的GPU可以加速训练过程

合理配置资源避免不必要的计算开销

🌙