计算公式说明

大模型显存估算系统 · VRAM Calculation Formulas

← 返回计算器
总显存公式
总显存 = 模型权重 + KV Cache + 推理开销
0估算模式

系统提供两种估算模式,适用于不同的规划场景。

项目保守估算乐观估算
推理开销≥15%(与用户设定的较大值)≤8%(与用户设定的较小值)
单位换算1e9(十进制,约 7% 偏小)1024³(二进制,精确 GiB)
对齐损耗+8%(PagedAttention block 对齐)0%(理论值)
适用场景生产环境容量规划理论上限参考
误差范围实际值可能高估 5-15%实际值可能低估 10-25%
模式差异详解

1. 推理开销比例差异
保守模式:vLLM/SGLang 实测中,激活值 + 临时 buffer + CUDA 工作空间通常占权重的 12-18%,保守设定 15% 下限
乐观模式:高度优化的部署(vLLM PagedAttention)可将开销压缩至 6-10%,乐观设定 8% 上限

2. 单位换算差异
1 GB = 1e9 bytes(十进制,硬盘/网络常用)
1 GiB = 1024³ bytes(二进制,内存/显存常用)
差异率 ≈ 7.37%。保守模式使用 1e9,计算结果比实际 GiB 约小 7%;乐观模式使用 1024³,精确匹配显存单位。

3. 对齐损耗(保守模式特有)
vLLM 等框架使用 PagedAttention 管理 KV Cache,以 block 为单位分配(典型 block_size = 16 或 32 tokens)。由于 page 对齐和内存碎片,实际占用比理论值高约 5-10%。保守模式增加 8% 余量:
实际 KV Cache = 理论值 × 1.08

1模型权重显存
权重显存(GB) = FP16模型大小(GB) × 量化压缩比
量化方式bytes/参数压缩比
FP1621
BF1621
FP810.5
INT810.5
FP40.50.25
INT40.50.25

模型预设的 size 值均为 FP16 精度下的估算大小(参数 × 2 bytes)。选择量化后自动乘以对应压缩比。

FP4 为 4-bit 浮点量化,与 INT4 同级别(0.5 byte/param),但保留了浮点格式的动态范围优势,在部分推理场景中精度损失更小。
2KV Cache 显存

每个 session 独立维护一份 KV Cache,大小取决于模型架构和上下文长度。

公式
KV Cache(GB) = 2 × numLayers × (hiddenDim × kvHeads/attnHeads) × contextLen × bytesPerElem / 1e9
参数说明
参数HF 配置名含义典型值(GLM-5.1)
2K 和 V 各一份
numLayersnum_hidden_layersTransformer 层数62
hiddenDimhidden_size隐藏层维度7168
kvHeads / attnHeadsnum_key_value_heads / num_attention_headsGQA KV 头比例8/64 = 0.125
hiddenDim × kvRatioKV 投影的实际维度7168 × 0.125 = 896
contextLen输入 + 输出 token 总数可选项:16K~1M
bytesPerElemFP16=2, FP8=1, INT4/FP4=0.52
KV Cache 格式说明
格式bytes/elem说明适用硬件
FP162传统默认,无损所有 GPU
FP81当前主流(OCP E5M2/E4M3),vLLM/SGLang 默认H100/H200/B200/H20 等
INT4/FP40.5量化 4-bit,相对 FP8 再减半显存B200 (NVFP4) / 支持 MXFP4 硬件

当前主流推理框架(vLLM、SGLang)默认使用 FP8 KV Cache,FP16 为传统基线。
INT4/FP4(如 NVIDIA NVFP4、OCP MXFP4)是 2025-2026 年新兴标准,在 Blackwell 及更高端硬件上支持,可在精度损失 <1% 的前提下将 KV Cache 显存再降低 50%。

非 GQA 模型(MHA)中 kvHeads = attnHeadskvRatio = 1,KV Cache 将放大 8 倍。
示例:GLM-5.1 FP16, 4K context
KV Cache = 2 × 62 × 896 × 4096 × 2 / 1e9 ≈ 0.91 GB/session
3推理开销

包括激活值(activation memory)、临时 buffer、CUDA kernel 工作空间等。

开销(GB) = 权重显存(GB) × 开销比例
场景建议比例
高度优化(vLLM PagedAttention)8%
vLLM 默认12%
SGLang15%
保守估算20%
4单 Session 总显存
单Session(GB) = 权重显存 + KV Cache + 推理开销

权重显存仅在加载时一次性占用,并发 session 共享权重,仅需额外分配 KV Cache + 开销。

5集群与并发计算
总显存
集群总显存(GB) = 单卡显存 × GPU 数量
可用显存(GB) = 集群总显存 - 系统预留
最少 GPU 数量
最少GPU数 = ceil((权重显存 + 预留) / 单卡显存)

模型权重必须能完整装入集群总显存(扣除预留),同时每张卡不超限。

最大并发 Session
最大并发 = floor((可用显存 - 权重显存) / (KV Cache + 开销))

权重只加载一份,所有 session 共享。剩余显存按每个 session 所需 KV Cache + 开销计算并发容量。

6模型预设数据
模型FP16hidden dimlayersQ headsKV heads最大上下文
DeepSeek V4-Pro3200 GB7168616481M
DeepSeek V4-Flash568 GB4096436411M
DeepSeek V3.21342 GB716867648128K
DeepSeek V3.11342 GB716867648128K
DeepSeek V31342 GB716867648128K
DeepSeek R11320 GB716867648128K
GLM-51490 GB6144786464200K
GLM-5.11488 GB6144786464200K
Qwen3-235B (MoE)470 GB409694644128K
Qwen3.5 397B-A17B794 GB409660322256K
Qwen3.5 397B-A17B-FP8397 GB409660322256K
Qwen3.6 35B-A3B70 GB204840162256K
Qwen2.5-VL 72B144 GB819280648128K
Minimax M2.7460 GB307262488200K

DeepSeek V4 系列基于 2026 年 4 月发布的技术报告,采用满血万亿参数 MoE + 华为昇腾 CANN 算力。
Qwen3.6 35B-A3B 是阿里 2026 年发布的 Agentic Coding 专用模型。

7GPU 预设列表
GPU显存类型
H200 141G141 GBNVIDIA
H20 141G141 GBNVIDIA (中国特供)
H100 NVL 94G94 GBNVIDIA
H100 80G80 GBNVIDIA
B200 192G192 GBNVIDIA
RTX 509032 GBNVIDIA
RTX 409024 GBNVIDIA
A710E96 GB阿里 PPU (HBM2e)
真武 810E96 GB阿里 PPU (HBM2e)

A710E 与 真武810E 为阿里巴巴自研 PPU,采用 HBM2e 高带宽内存,单卡 96 GB。