系统提供两种估算模式,适用于不同的规划场景。
| 项目 | 保守估算 | 乐观估算 |
|---|---|---|
| 推理开销 | ≥15%(与用户设定的较大值) | ≤8%(与用户设定的较小值) |
| 单位换算 | 1e9(十进制,约 7% 偏小) | 1024³(二进制,精确 GiB) |
| 对齐损耗 | +8%(PagedAttention block 对齐) | 0%(理论值) |
| 适用场景 | 生产环境容量规划 | 理论上限参考 |
| 误差范围 | 实际值可能高估 5-15% | 实际值可能低估 10-25% |
1. 推理开销比例差异
保守模式:vLLM/SGLang 实测中,激活值 + 临时 buffer + CUDA 工作空间通常占权重的 12-18%,保守设定 15% 下限
乐观模式:高度优化的部署(vLLM PagedAttention)可将开销压缩至 6-10%,乐观设定 8% 上限
2. 单位换算差异
1 GB = 1e9 bytes(十进制,硬盘/网络常用)
1 GiB = 1024³ bytes(二进制,内存/显存常用)
差异率 ≈ 7.37%。保守模式使用 1e9,计算结果比实际 GiB 约小 7%;乐观模式使用 1024³,精确匹配显存单位。
3. 对齐损耗(保守模式特有)
vLLM 等框架使用 PagedAttention 管理 KV Cache,以 block 为单位分配(典型 block_size = 16 或 32 tokens)。由于 page 对齐和内存碎片,实际占用比理论值高约 5-10%。保守模式增加 8% 余量:
实际 KV Cache = 理论值 × 1.08
| 量化方式 | bytes/参数 | 压缩比 |
|---|---|---|
FP16 | 2 | 1 |
BF16 | 2 | 1 |
FP8 | 1 | 0.5 |
INT8 | 1 | 0.5 |
FP4 | 0.5 | 0.25 |
INT4 | 0.5 | 0.25 |
模型预设的 size 值均为 FP16 精度下的估算大小(参数 × 2 bytes)。选择量化后自动乘以对应压缩比。
FP4 为 4-bit 浮点量化,与 INT4 同级别(0.5 byte/param),但保留了浮点格式的动态范围优势,在部分推理场景中精度损失更小。
每个 session 独立维护一份 KV Cache,大小取决于模型架构和上下文长度。
| 参数 | HF 配置名 | 含义 | 典型值(GLM-5.1) |
|---|---|---|---|
2 | — | K 和 V 各一份 | — |
numLayers | num_hidden_layers | Transformer 层数 | 62 |
hiddenDim | hidden_size | 隐藏层维度 | 7168 |
kvHeads / attnHeads | num_key_value_heads / num_attention_heads | GQA KV 头比例 | 8/64 = 0.125 |
hiddenDim × kvRatio | — | KV 投影的实际维度 | 7168 × 0.125 = 896 |
contextLen | — | 输入 + 输出 token 总数 | 可选项:16K~1M |
bytesPerElem | — | FP16=2, FP8=1, INT4/FP4=0.5 | 2 |
| 格式 | bytes/elem | 说明 | 适用硬件 |
|---|---|---|---|
FP16 | 2 | 传统默认,无损 | 所有 GPU |
FP8 | 1 | 当前主流(OCP E5M2/E4M3),vLLM/SGLang 默认 | H100/H200/B200/H20 等 |
INT4/FP4 | 0.5 | 量化 4-bit,相对 FP8 再减半显存 | B200 (NVFP4) / 支持 MXFP4 硬件 |
当前主流推理框架(vLLM、SGLang)默认使用 FP8 KV Cache,FP16 为传统基线。
INT4/FP4(如 NVIDIA NVFP4、OCP MXFP4)是 2025-2026 年新兴标准,在 Blackwell 及更高端硬件上支持,可在精度损失 <1% 的前提下将 KV Cache 显存再降低 50%。
kvHeads = attnHeads,kvRatio = 1,KV Cache 将放大 8 倍。
包括激活值(activation memory)、临时 buffer、CUDA kernel 工作空间等。
| 场景 | 建议比例 |
|---|---|
| 高度优化(vLLM PagedAttention) | 8% |
| vLLM 默认 | 12% |
| SGLang | 15% |
| 保守估算 | 20% |
权重显存仅在加载时一次性占用,并发 session 共享权重,仅需额外分配 KV Cache + 开销。
可用显存(GB) = 集群总显存 - 系统预留
模型权重必须能完整装入集群总显存(扣除预留),同时每张卡不超限。
权重只加载一份,所有 session 共享。剩余显存按每个 session 所需 KV Cache + 开销计算并发容量。
| 模型 | FP16 | hidden dim | layers | Q heads | KV heads | 最大上下文 |
|---|---|---|---|---|---|---|
| DeepSeek V4-Pro | 3200 GB | 7168 | 61 | 64 | 8 | 1M |
| DeepSeek V4-Flash | 568 GB | 4096 | 43 | 64 | 1 | 1M |
| DeepSeek V3.2 | 1342 GB | 7168 | 67 | 64 | 8 | 128K |
| DeepSeek V3.1 | 1342 GB | 7168 | 67 | 64 | 8 | 128K |
| DeepSeek V3 | 1342 GB | 7168 | 67 | 64 | 8 | 128K |
| DeepSeek R1 | 1320 GB | 7168 | 67 | 64 | 8 | 128K |
| GLM-5 | 1490 GB | 6144 | 78 | 64 | 64 | 200K |
| GLM-5.1 | 1488 GB | 6144 | 78 | 64 | 64 | 200K |
| Qwen3-235B (MoE) | 470 GB | 4096 | 94 | 64 | 4 | 128K |
| Qwen3.5 397B-A17B | 794 GB | 4096 | 60 | 32 | 2 | 256K |
| Qwen3.5 397B-A17B-FP8 | 397 GB | 4096 | 60 | 32 | 2 | 256K |
| Qwen3.6 35B-A3B | 70 GB | 2048 | 40 | 16 | 2 | 256K |
| Qwen2.5-VL 72B | 144 GB | 8192 | 80 | 64 | 8 | 128K |
| Minimax M2.7 | 460 GB | 3072 | 62 | 48 | 8 | 200K |
DeepSeek V4 系列基于 2026 年 4 月发布的技术报告,采用满血万亿参数 MoE + 华为昇腾 CANN 算力。
Qwen3.6 35B-A3B 是阿里 2026 年发布的 Agentic Coding 专用模型。
| GPU | 显存 | 类型 |
|---|---|---|
| H200 141G | 141 GB | NVIDIA |
| H20 141G | 141 GB | NVIDIA (中国特供) |
| H100 NVL 94G | 94 GB | NVIDIA |
| H100 80G | 80 GB | NVIDIA |
| B200 192G | 192 GB | NVIDIA |
| RTX 5090 | 32 GB | NVIDIA |
| RTX 4090 | 24 GB | NVIDIA |
| A710E | 96 GB | 阿里 PPU (HBM2e) |
| 真武 810E | 96 GB | 阿里 PPU (HBM2e) |
A710E 与 真武810E 为阿里巴巴自研 PPU,采用 HBM2e 高带宽内存,单卡 96 GB。